大脑与AI共享的底层算法-notebooklm

玉兰 • 14小时前 • 杂文

<br />

从进化到算法：关于强化学习，大脑比 AI 早知道了数亿年

无论是一个蹒跚学步的婴儿，还是一台在围棋棋盘上运筹帷幄的超级计算机，它们学习的核心逻辑都惊人地一致：试错（Trial and Error）。在跌倒中寻找平衡，在落子中寻找胜机。

如今，强化学习（Reinforcement Learning, RL）被视为通往通用人工智能（AGI）的关键路径。但如果我们剥开复杂的数学公式，会发现强化学习并非单纯是计算机科学的杰作，它更是大自然最杰出的进化发明。为什么自然选择没有把所有生存技能都死死地刻在 DNA 里？因为进化发现，面对一个“非随机但也不固定”的复杂世界，赋予个体“在生存压力下自主学习”的能力，比单纯的本能更具适应性。早在人类发明算法之前的数亿年，生物系统就已经在严苛的生存成本约束下，完美地运行着这套将行为后果转化为未来偏好的复杂机制。

--------------------------------------------------------------------------------

Takeaway 1：多巴胺不是“快乐水”，而是“预测误差信号”

在流行文化中，多巴胺常被误解为奖励或快乐的代名词。但神经科学研究——尤其是 Wolfram Schultz 等人于 1997 年进行的经典研究——揭示了一个完全不同的真相：多巴胺神经元实际上编码的是“奖励预测误差”（Reward Prediction Error, RPE）。

Schultz 的研究观察到了多巴胺放电的三种典型模式：

奖励超预期： 当奖励意外出现时，多巴胺神经元会产生强烈的爆发性放电。
符合预期： 当奖励被可靠信号（如灯光）预测后，放电会转移到信号出现时。而当奖励真正到来时，由于已经“不出所料”，神经元反而保持平静。
低于预期： 如果预期的奖励没出现，多巴胺放电会跌落至基线以下。

这种“预测驱动”的机制是学习的核心。如果一切皆如预期，大脑便无需更新策略；只有当现实与预测之间产生“位差”时，多巴胺才会发出信号，驱动神经回路进行调整。

“多巴胺神经元在学习过程中编码的是时间上的预测误差，而不是单纯喜欢奖励。” —— 这一观点不仅确立了生物 RL 的理论基石，更在数学形式上与 AI 中的时序差分（TD）学习实现了跨界共鸣。

Takeaway 2：你的脑内藏着一套“分布式”演员-评论家系统

现代 AI 常用一种被称为“演员-评论家”（Actor-Critic）的框架：一个系统（Actor）尝试动作，另一个系统（Critic）评估结果。有趣的是，人类的大脑并非运行单一的逻辑脚本，而是一个精密协作的分布式系统。

在人类的纹状体（Striatum）结构中，这种分工清晰可见：

腹侧纹状体（Ventral Striatum）： 扮演“评论家”，负责预测未来价值。
背侧纹状体（Dorsal Striatum）： 扮演“演员”，负责动作选择与习惯形成。

这种架构不仅是分工，更是为了解决**“信用分配问题”（Credit Assignment Problem）**。通过多脑区的协作，大脑能在不同的时间尺度上平衡目标导向行为（灵活但高耗能）与习惯性控制（高效但机械）。相比 AI 追求单一的最优策略，大脑更像是一个多系统混合体，在灵活性与效率之间寻找动态平衡。

Takeaway 3：海马体：不只是记忆，更是你的“内部世界模型”

如果纹状体是“执行者”，海马体（Hippocampus）则是“规划者”。当海马体这一“内部指南针”失灵时，生物不仅会丧失记忆，更会失去在脑中推演未来的能力。

通过**经验回放（Replay）**机制，海马体在生物休息或睡眠时会高速重演白天的经历（如 Ólafsdóttir 等人的研究所示）。这不仅仅是巩固记忆，更是为了在“内部模型”中进行模拟训练。Vikbladh 等人的病灶研究进一步证明，海马体受损会导致模型化规划能力崩溃，因为它无法再构建那种被称为“认知地图”的空间表征。

在此基础上，Samuel Gershman 提出的**后继表征（Successor Representation, SR）**理论揭示了海马体的计算妙处：它在“模型自由”的高效与“纯模型”的灵活性之间找到了折中点。它不像纯模型推演那样耗费海量算力，也不像纯习惯那样死板，这种“取巧”的预计算机制，正是生物能以极低功耗在复杂环境中快速导航的秘诀。

Takeaway 4：进化之所以保留 RL，是为了在不确定中寻找“省电模式”

从进化论视角看，学习是需要支付高昂代价的。**可塑性（Plasticity）**意味着巨大的能量消耗、时间成本以及试错带来的生命风险。

Lennie (2003) 的研究指出，由于能量约束极其严苛，大脑皮层在任一时刻显著活跃的神经元可能不到 1%。这种**“稀疏编码”（Sparse Coding）**的特质，反映了进化对能量预算的极度敏感。进化之所以保留强化学习，是因为世界并非完全随机：它存在可学习的结构，但又不至于固定到可以完全写进基因。

因此，生物系统追求的从来不是“无限算力下的全球最优解”，而是在生存成本约束下的“足够好”。自然选择优化了大脑的底层架构和学习率范围，让个体能在有限的生命周期内，通过最高效的路径完成环境适配。

Takeaway 5：现代 AI 的软肋——为什么 AlphaZero 还没你聪明？

尽管 Deep RL 在围棋和电竞领域战绩辉煌，但与生物系统相比，它们仍处于“蛮力计算”阶段：

样本效率的鸿沟： OpenAI Five 在《Dota 2》中达到顶级水平，依赖的是长达 10 个月的“批量训练”，每两秒处理约 200 万帧数据。而人类只需通过“稀疏交互”就能在数千小时内掌握复杂规则。
能耗的云泥之别： AI 依赖庞大的 GPU 集群，而生物脑仅靠几十瓦能量运行。值得关注的是，神经形态计算（如 PopSAN 在 Intel Loihi 芯片上的应用）通过模仿生物的稀疏活动，已实现推理能耗降低约 140 倍。
局部更新 vs 全局优化： 现代 AI 依赖全局的反向传播，而生物学习遵循的是局部突触规则。例如 STDP（脉冲时间依赖可塑性），它根据神经元放电的精确先后顺序调整权重。这种基于局部活动与误差信号（多巴胺）耦合的规则（Bi & Poo, 1998），使生物能持续在线学习，而不会像 AI 那样轻易陷入“灾难性遗忘”。

Takeaway 6：未来算法的逻辑——向生命借约束

人工智能的下一场革命，核心或许不再是单纯地增加参数规模，而是“向生命借约束”，引入那些曾被视为障碍的生物学限制：

结构化记忆： 摆脱随机采样缓存，建立类似海马体的认知地图，让 AI 具备真正的模拟与规划能力。
主动探索与稀疏表示： 模仿生物在不同年龄和社会压力下的探索动机，并结合稀疏编码降低计算能耗。
局部学习规则： 探索摆脱全局梯度依赖的可能性，利用类 STDP 规则实现更高效的局部在线更新。
进化与学习的协同： 利用鲍德温效应（Baldwin Effect），让长周期的进化先验指导短周期的个体学习，形成更强的认知合力。

--------------------------------------------------------------------------------

结语：一场跨越亿年的计算共鸣

强化学习的本质，是跨越生物与机器的一场关于“将后果转化为偏好”的计算共鸣。大脑用数亿年的进化，将复杂的决策机制浓缩在几磅重的“湿件”中。

当下的深度学习虽然强大，但它更像是一座靠烧煤运行的摩天大楼。如果我们能赋予 AI 像生物一样敏感、低功耗且具备“生存本能”的进化直觉，我们离真正的通用人工智能（AGI）或许会更近一步。

思考题： 如果未来的 AI 不再仅仅通过算法寻优，而是拥有了对生存风险的“生理性恐惧”和对能量的“本能节约”，那种真正具备“主体意识（Agency）”的决策，会不会比现在的 AlphaZero 更聪明？

版权声明：
作者：玉兰
链接：https://www.techfm.club/p/235551.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

这就是 vibe coding-SunoMV

< <上一篇

深度历史：地中海与时间的三种速度

下一篇>>

搜索内容

大脑与AI共享的底层算法-notebooklm

从进化到算法：关于强化学习，大脑比 AI 早知道了数亿年

Takeaway 1：多巴胺不是“快乐水”，而是“预测误差信号”

Takeaway 2：你的脑内藏着一套“分布式”演员-评论家系统

Takeaway 3：海马体：不只是记忆，更是你的“内部世界模型”

Takeaway 4：进化之所以保留 RL，是为了在不确定中寻找“省电模式”

Takeaway 5：现代 AI 的软肋——为什么 AlphaZero 还没你聪明？

Takeaway 6：未来算法的逻辑——向生命借约束

结语：一场跨越亿年的计算共鸣

取消回复

共有 0 条评论

Ads