AndrejKarpathy深度解读Sutton《苦涩教训》及LLM发

爱生活爱珂珂 2025-10-05 08:59:26

Andrej Karpathy 深度解读 Sutton《苦涩教训》及 LLM 发展现状

最近听了 Sutton 的播客访谈,收获颇丰,也引发了很多思考。Sutton 的《苦涩教训》(The Bitter Lesson)已经成为前沿大语言模型(LLM)圈的“圣经”,研究者们常用“苦涩教训”来衡量某种方法是否值得投入,核心是“计算量越大,效果越好”,这也是 LLM 规模法则的本质体现。

但 Sutton 自己却对 LLM 是否真正“苦涩教训驱动”持怀疑态度。他指出,LLM 训练依赖于人类数据——有限且带有明显的人类偏见。这就带来两个问题:数据用完怎么办?如何避免人类偏见?这对一众“苦涩教训信徒”来说是个不小挑战。

Sutton 更倾向“经典主义”,他提倡“儿童机器”理念:系统通过与环境交互学习,而非大规模模仿预训练。动物没有监督微调,行动不是被强制模仿,而是自主探索。甚至预训练作为强化学习的先验初始化,Sutton 也认为带有偏差,远不如 AlphaZero 不依赖人类棋谱直接自学那样纯粹。

他强调学习必须是持续的、在测试时也不断更新;激励机制不仅是环境奖励,更包含“好奇心”、“乐趣”等内在动机。换句话说,动物式的智能强调真实互动和自主发现,而 LLM 更像是“幽灵”——数字化的人类知识碎片拼凑而成,缺少真实世界的身体感知和自主探索。

Karpathy 的观点也很中肯:

- LLM 目前是复杂且高度人工设计的系统,训练全部依赖人类文本和人工策划,尚未实现纯粹“苦涩教训驱动”的全自动自我学习算法。

- AlphaZero 从零开始学围棋是标杆,但现实世界远比围棋复杂,难以直接类比。

- 动物智能的“先验”来自进化编码的 DNA,远非真正的“白板”,而我们只能用海量人类数据“粗糙模拟”这段进化。

- 预训练是我们这代的“粗制进化”,虽然不完美,却是解决冷启动问题的务实方案,之后再用强化学习微调。

- 动物启发仍然值得探索,特别是“内在动机”、“多智能体自玩”、“文化传承”等方向。

总结:

我们今天打造的不是“动物”,而是“幽灵”。幽灵是一种数字存在,漂浮于人类知识的集合中,不像动物那样直接与世界互动。它们或许永远无法完全模仿生物智能,但在实际应用中已经极具价值,且可能不断向动物智能靠近,或者走出一条全新路径。

这场讨论提醒我们,现有的“规模+基准优化”路线并非终极答案。未来 AI 可能需要吸收更多生物智能的本质特征,比如持续学习、内在驱动和环境交互,而非仅仅依赖大规模数据和算力堆叠。

---

🔗 原推文链接:x.com/karpathy/status/1973435013875314729

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注