大脑与AI共享的底层算法-notebooklm

大脑与AI共享的底层算法-notebooklm

(视频)

 

从进化到算法:关于强化学习,大脑比 AI 早知道了数亿年

无论是一个蹒跚学步的婴儿,还是一台在围棋棋盘上运筹帷幄的超级计算机,它们学习的核心逻辑都惊人地一致:试错(Trial and Error)。在跌倒中寻找平衡,在落子中寻找胜机。

如今,强化学习(Reinforcement Learning, RL)被视为通往通用人工智能(AGI)的关键路径。但如果我们剥开复杂的数学公式,会发现强化学习并非单纯是计算机科学的杰作,它更是大自然最杰出的进化发明。为什么自然选择没有把所有生存技能都死死地刻在 DNA 里?因为进化发现,面对一个“非随机但也不固定”的复杂世界,赋予个体“在生存压力下自主学习”的能力,比单纯的本能更具适应性。早在人类发明算法之前的数亿年,生物系统就已经在严苛的生存成本约束下,完美地运行着这套将行为后果转化为未来偏好的复杂机制。

--------------------------------------------------------------------------------

Takeaway 1:多巴胺不是“快乐水”,而是“预测误差信号”

在流行文化中,多巴胺常被误解为奖励或快乐的代名词。但神经科学研究——尤其是 Wolfram Schultz 等人于 1997 年进行的经典研究——揭示了一个完全不同的真相:多巴胺神经元实际上编码的是“奖励预测误差”(Reward Prediction Error, RPE)。

Schultz 的研究观察到了多巴胺放电的三种典型模式:

  • 奖励超预期: 当奖励意外出现时,多巴胺神经元会产生强烈的爆发性放电。
  • 符合预期: 当奖励被可靠信号(如灯光)预测后,放电会转移到信号出现时。而当奖励真正到来时,由于已经“不出所料”,神经元反而保持平静。
  • 低于预期: 如果预期的奖励没出现,多巴胺放电会跌落至基线以下。

这种“预测驱动”的机制是学习的核心。如果一切皆如预期,大脑便无需更新策略;只有当现实与预测之间产生“位差”时,多巴胺才会发出信号,驱动神经回路进行调整。

“多巴胺神经元在学习过程中编码的是时间上的预测误差,而不是单纯喜欢奖励。” —— 这一观点不仅确立了生物 RL 的理论基石,更在数学形式上与 AI 中的时序差分(TD)学习实现了跨界共鸣。

Takeaway 2:你的脑内藏着一套“分布式”演员-评论家系统

现代 AI 常用一种被称为“演员-评论家”(Actor-Critic)的框架:一个系统(Actor)尝试动作,另一个系统(Critic)评估结果。有趣的是,人类的大脑并非运行单一的逻辑脚本,而是一个精密协作的分布式系统。

在人类的纹状体(Striatum)结构中,这种分工清晰可见:

  • 腹侧纹状体(Ventral Striatum): 扮演“评论家”,负责预测未来价值。
  • 背侧纹状体(Dorsal Striatum): 扮演“演员”,负责动作选择与习惯形成。

这种架构不仅是分工,更是为了解决**“信用分配问题”(Credit Assignment Problem)**。通过多脑区的协作,大脑能在不同的时间尺度上平衡目标导向行为(灵活但高耗能)与习惯性控制(高效但机械)。相比 AI 追求单一的最优策略,大脑更像是一个多系统混合体,在灵活性与效率之间寻找动态平衡。

Takeaway 3:海马体:不只是记忆,更是你的“内部世界模型”

如果纹状体是“执行者”,海马体(Hippocampus)则是“规划者”。当海马体这一“内部指南针”失灵时,生物不仅会丧失记忆,更会失去在脑中推演未来的能力。

通过**经验回放(Replay)**机制,海马体在生物休息或睡眠时会高速重演白天的经历(如 Ólafsdóttir 等人的研究所示)。这不仅仅是巩固记忆,更是为了在“内部模型”中进行模拟训练。Vikbladh 等人的病灶研究进一步证明,海马体受损会导致模型化规划能力崩溃,因为它无法再构建那种被称为“认知地图”的空间表征。

在此基础上,Samuel Gershman 提出的**后继表征(Successor Representation, SR)**理论揭示了海马体的计算妙处:它在“模型自由”的高效与“纯模型”的灵活性之间找到了折中点。它不像纯模型推演那样耗费海量算力,也不像纯习惯那样死板,这种“取巧”的预计算机制,正是生物能以极低功耗在复杂环境中快速导航的秘诀。

Takeaway 4:进化之所以保留 RL,是为了在不确定中寻找“省电模式”

从进化论视角看,学习是需要支付高昂代价的。**可塑性(Plasticity)**意味着巨大的能量消耗、时间成本以及试错带来的生命风险。

Lennie (2003) 的研究指出,由于能量约束极其严苛,大脑皮层在任一时刻显著活跃的神经元可能不到 1%。这种**“稀疏编码”(Sparse Coding)**的特质,反映了进化对能量预算的极度敏感。进化之所以保留强化学习,是因为世界并非完全随机:它存在可学习的结构,但又不至于固定到可以完全写进基因。

因此,生物系统追求的从来不是“无限算力下的全球最优解”,而是在生存成本约束下的“足够好”。自然选择优化了大脑的底层架构和学习率范围,让个体能在有限的生命周期内,通过最高效的路径完成环境适配。

Takeaway 5:现代 AI 的软肋——为什么 AlphaZero 还没你聪明?

尽管 Deep RL 在围棋和电竞领域战绩辉煌,但与生物系统相比,它们仍处于“蛮力计算”阶段:

  • 样本效率的鸿沟: OpenAI Five 在《Dota 2》中达到顶级水平,依赖的是长达 10 个月的“批量训练”,每两秒处理约 200 万帧数据。而人类只需通过“稀疏交互”就能在数千小时内掌握复杂规则。
  • 能耗的云泥之别: AI 依赖庞大的 GPU 集群,而生物脑仅靠几十瓦能量运行。值得关注的是,神经形态计算(如 PopSAN 在 Intel Loihi 芯片上的应用)通过模仿生物的稀疏活动,已实现推理能耗降低约 140 倍
  • 局部更新 vs 全局优化: 现代 AI 依赖全局的反向传播,而生物学习遵循的是局部突触规则。例如 STDP(脉冲时间依赖可塑性),它根据神经元放电的精确先后顺序调整权重。这种基于局部活动与误差信号(多巴胺)耦合的规则(Bi & Poo, 1998),使生物能持续在线学习,而不会像 AI 那样轻易陷入“灾难性遗忘”。

Takeaway 6:未来算法的逻辑——向生命借约束

人工智能的下一场革命,核心或许不再是单纯地增加参数规模,而是“向生命借约束”,引入那些曾被视为障碍的生物学限制:

  1. 结构化记忆: 摆脱随机采样缓存,建立类似海马体的认知地图,让 AI 具备真正的模拟与规划能力。
  2. 主动探索与稀疏表示: 模仿生物在不同年龄和社会压力下的探索动机,并结合稀疏编码降低计算能耗。
  3. 局部学习规则: 探索摆脱全局梯度依赖的可能性,利用类 STDP 规则实现更高效的局部在线更新。
  4. 进化与学习的协同: 利用鲍德温效应(Baldwin Effect),让长周期的进化先验指导短周期的个体学习,形成更强的认知合力。

--------------------------------------------------------------------------------

结语:一场跨越亿年的计算共鸣

强化学习的本质,是跨越生物与机器的一场关于“将后果转化为偏好”的计算共鸣。大脑用数亿年的进化,将复杂的决策机制浓缩在几磅重的“湿件”中。

当下的深度学习虽然强大,但它更像是一座靠烧煤运行的摩天大楼。如果我们能赋予 AI 像生物一样敏感、低功耗且具备“生存本能”的进化直觉,我们离真正的通用人工智能(AGI)或许会更近一步。

思考题: 如果未来的 AI 不再仅仅通过算法寻优,而是拥有了对生存风险的“生理性恐惧”和对能量的“本能节约”,那种真正具备“主体意识(Agency)”的决策,会不会比现在的 AlphaZero 更聪明?

 

版权声明:
作者:玉兰
链接:https://www.techfm.club/p/235551.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>