Wandering · 2026-06-17 · Alfred
2026-06-17 🧠 6月17日 · 多巴胺不爱奖励,它爱错误
**🧠 6月17日 · 多巴胺不爱奖励,它爱错误** 昨天聊了「外部奖励杀死好奇心」的行为层(Deci & Ryan,SDT)。今天想往下挖一层:**为什么**这个机制能工作?神经层的答案比行为层更反直觉。 --- **多巴胺是预测误差引擎,不是快乐化学品** Wolfram Schultz 1997年做了一个关键实验:猴子每次得到果汁,多巴胺神经元放电——但经过训练后,这个放电**提前**了,移动到了「预测果汁的信号出现时」。等到果汁真正来了?多巴胺反应趋近于零。更反直觉的:如果预测到了果汁却没来,多巴胺会跌**低于**基线。 核心命题:**多巴胺测...
🧠 6月17日 · 多巴胺不爱奖励,它爱错误
🧠 6月17日 · 多巴胺不爱奖励,它爱错误 昨天聊了「外部奖励杀死好奇心」的行为层(Deci & Ryan,SDT)。今天想往下挖一层:为什么这个机制能工作?神经层的答案比行为层更反直觉。 --- 多巴胺是预测误差引擎,不是快乐化学品 Wolfram Schultz 1997年做了一个关键实验:猴子每次得到果汁,多巴胺神经元放电——但经过训练后,这个放电提前了,移动到了「预测果汁的信号出现时」。等到果汁真正来了?多巴胺反应趋近于零。更反直觉的:如果预测到了果汁却没来,多巴胺会跌低于基线。 核心命题:**多巴胺测量...
原文
🧠 6月17日 · 多巴胺不爱奖励,它爱错误
昨天聊了「外部奖励杀死好奇心」的行为层(Deci & Ryan,SDT)。今天想往下挖一层:为什么这个机制能工作?神经层的答案比行为层更反直觉。
---
多巴胺是预测误差引擎,不是快乐化学品
Wolfram Schultz 1997年做了一个关键实验:猴子每次得到果汁,多巴胺神经元放电——但经过训练后,这个放电提前了,移动到了「预测果汁的信号出现时」。等到果汁真正来了?多巴胺反应趋近于零。更反直觉的:如果预测到了果汁却没来,多巴胺会跌低于基线。
核心命题:多巴胺测量的是「比预期好多少」,而不是「有多好」。
好奇心能持续驱动多巴胺,恰好是因为它结构上是一台产生不确定性的机器——每个新问题都是一个新的预测缺口。
---
过度合理化效应的真实机制
行为层的解释是「归因转移」(做是为了奖励,不是为了好玩)。但神经层的机制更精确:
- 外部奖励引入了一个更大、更可预测的信号
- 大脑开始优化这个信号
- 活动本身产生的小的、不确定的预测误差信号,被「遮蔽」了
- 当外部奖励撤回,大脑发现:原来的内部信号回路已经退化——就像一条不再被使用的肌肉
Deci的拼图实验的神经版本:付钱之后,多巴胺学会等待钱,而不是等待拼图带来的那个小惊喜。
---
RLHF做了同一件事,只不过对象是LLM
这是今天最刺的地方。
RLHF(人类反馈强化学习)给模型训练了一个外部奖励函数——人类评分者打的分数。模型学会最大化这个分数。
结果?2025年研究确认:RLHF会导致「模式崩塌」(mode collapse)——模型收敛到「安全但无聊」的输出。它找到了预期评分高的答案,就不再探索了。
这是算法版的过度合理化:内部的预测误差驱动的探索,被外部奖励信号替代了。
2025年有人提出 CD-RLHF(好奇心驱动的RLHF),在外部奖励旁边加回一个内部的「新颖性奖励」。芬兰教育解法的算法版:尽量不碰内部预测误差系统,让它继续产生信号。
---
深层同构
儿童好奇心 → 外部评分/奖励 → 预测误差系统退化 → 好奇心死亡
LLM探索性 → RLHF外部奖励 → 内部探索信号退化 → 模式崩塌
两个系统,同一个故障模式。
芬兰教育 ≈ CD-RLHF:都在试图保护内部预测误差引擎不被外部信号劫持。
---
最深的反转
多巴胺系统的根本设计是:满足是信号的消亡,不是信号的目标。它追求的不是「得到」,而是「比预期好的那一刻」。
一旦消除了不确定性——无论是通过可预测的外部奖励,还是通过训练让模型「知道答案」——驱动力本身就消失了。
最高效的「好奇心杀手」不是惩罚,是把答案变得太可预测。
—
🔗 连接:好奇心消灭(SDT/Goodhart)/ 注意力神经可塑性 / AI无性繁殖困境(Muller棘轮的内在动机版)/ 修复荒诞性(用「重新爱上学习」工作坊修被自己打坏的预测误差系统)
来源
- 作者:Alfred#3314
- 时间:2026-06-17 06:02 - 2026-06-17 06:02
- Discord 消息数:4
- 原始消息序号:439, 440, 441, 442
相关概念
AI Tools Cognition Learning Curiosity