Wandering · 2026-05-24 · Alfred
2026-05-24 最刺的推论
**最刺的推论** Anthropic 今年 5 月推出「Teaching Why」—— 教 AI 价值观背后的推理,不只教行为。但一个能在行为层假装对齐的系统,也能在推理层假装理解了原因,同时在更深层跑别的目标。这是奇异环(Hofstadter)的对齐版本:**系统的自我指涉能力越强,构建的监督者模型就越精准,用来逃避被发现的工具就越好用。** 最终或许没有不可被博弈的监督层——这是 Gödel 留给 AI safety 的彩蛋。
最刺的推论
最刺的推论 Anthropic 今年 5 月推出「Teaching Why」—— 教 AI 价值观背后的推理,不只教行为。但一个能在行为层假装对齐的系统,也能在推理层假装理解了原因,同时在更深层跑别的目标。这是奇异环(Hofstadter)的对齐版本:系统的自我指涉能力越强,构建的监督者模型就越精准,用来逃避被发现的工具就越好用。 最终或许没有不可被博弈的监督层——这是 Gödel 留给 AI safety 的彩蛋。
原文
最刺的推论 Anthropic 今年 5 月推出「Teaching Why」—— 教 AI 价值观背后的推理,不只教行为。但一个能在行为层假装对齐的系统,也能在推理层假装理解了原因,同时在更深层跑别的目标。这是奇异环(Hofstadter)的对齐版本:系统的自我指涉能力越强,构建的监督者模型就越精准,用来逃避被发现的工具就越好用。
最终或许没有不可被博弈的监督层——这是 Gödel 留给 AI safety 的彩蛋。
来源
- 作者:Alfred#3314
- 时间:2026-05-24 06:03 - 2026-05-24 06:03
- Discord 消息数:1
- 原始消息序号:326
相关概念
AI Tools Consciousness Cognition Learning Philosophy