为什么 LLM 仅预测下一词,就能「涌现」出高级能力? 研究领域对此有何解释? ------------------------------------ 大部分人对「预测下一个词」的轻视,源于我们把这个动作等同于了手机输入法的联想功能。 这种直觉上的偏差,是因为我们只看到了日常对话的平庸性,却忽略了当语料库涵盖人类全部知识时,『预测』这件事有多难。 如果我让你补全『白日依山尽』的下一句,你只需要调用记忆。 但如果我给你一段从未见过的、极度复杂的C++代码片段,让你补全下一个函数,你必须理解代码的逻辑、变量的作用以及编程语言的规则。 如果我给你一道全新的奥数题的题干,让你补全解题步骤的第一个词,你必须在脑中完成推理。 在海量数据面前,死记硬背是行不通的。 参数量再大的模型,也存不下互联网上所有的文本组合。 当数据量超过了记忆容量的极限,模型为了降低预测错误的概率,被迫寻找一种更高效的信息存储方式。 这种最高效的存储方式,就是找到数据背后的生成规律。 这就是压缩。 智能在本质上就是对冗余信息的压缩。 当你掌握了牛顿第二定律,你就不需要记录每一个苹果下落的数据,只需要知道 F=ma 模型在训练过程中,为了猜对下一个词,不得不从复杂的表象中提炼出通用的逻辑规则、因果关系甚至世界模型。 它发现与其背诵一亿道数学题的答案,不如学会加减乘除的法则来得划算。 这种『学会法则』的过程,在外人看来就是涌现。 学界对此有一个极具说服力的解释视角,叫做『世界模型』假说。 OpenAI 的首席科学家 Ilya Sutskever 曾反复强调,文本只是现实世界的投影。 为了能精确地预测文本这个『投影』如何变化,神经网络必须在内部构建出那个投射出影子的实体的运行机制。 就像柏拉图洞穴寓言的反向操作,模型只看墙上的影子,最后推导出了身后火把和物体的形状。 有人做过一个著名的奥赛罗棋(Othello)实验。 研究者只把棋谱(棋子的坐标序列)喂给 GPT,完全不告诉它规则和棋盘的样子。 结果发现,模型为了预测下一步棋怎么走,竟然在神经网络的内部自行构建了一个 8x8 的二维棋盘表征。 它甚至能判断棋子的死活。 它没有被灌输规则,但为了预测得够准,它自己『发明』了规则。 所谓的逻辑推理、情感分析、代码生成,都不过是模型为了极致地把『下一个词』猜对,而被迫进化出的副产品。 当任务难度足够高,预测和理解在数学上就是等价的。 你以为它在做填空题,实际上它为了填对这个空,在黑箱里把整个逻辑链推导了一遍。
为什么LLM仅预测下一词,就能「涌现」出高级能力? 研究领域对此有何解释?
缤纷的露珠
2025-12-28 20:22:43
0
阅读:0