为什么LLM仅预测下一词，就能「涌现」出高级能力？研究领域对此有何解释？

为什么 LLM 仅预测下一词，就能「涌现」出高级能力？研究领域对此有何解释？ ------------------------------------ 大部分人对「预测下一个词」的轻视，源于我们把这个动作等同于了手机输入法的联想功能。这种直觉上的偏差，是因为我们只看到了日常对话的平庸性，却忽略了当语料库涵盖人类全部知识时，『预测』这件事有多难。如果我让你补全『白日依山尽』的下一句，你只需要调用记忆。但如果我给你一段从未见过的、极度复杂的C++代码片段，让你补全下一个函数，你必须理解代码的逻辑、变量的作用以及编程语言的规则。如果我给你一道全新的奥数题的题干，让你补全解题步骤的第一个词，你必须在脑中完成推理。在海量数据面前，死记硬背是行不通的。参数量再大的模型，也存不下互联网上所有的文本组合。当数据量超过了记忆容量的极限，模型为了降低预测错误的概率，被迫寻找一种更高效的信息存储方式。这种最高效的存储方式，就是找到数据背后的生成规律。这就是压缩。智能在本质上就是对冗余信息的压缩。当你掌握了牛顿第二定律，你就不需要记录每一个苹果下落的数据，只需要知道 F=ma 模型在训练过程中，为了猜对下一个词，不得不从复杂的表象中提炼出通用的逻辑规则、因果关系甚至世界模型。它发现与其背诵一亿道数学题的答案，不如学会加减乘除的法则来得划算。这种『学会法则』的过程，在外人看来就是涌现。学界对此有一个极具说服力的解释视角，叫做『世界模型』假说。 OpenAI 的首席科学家 Ilya Sutskever 曾反复强调，文本只是现实世界的投影。为了能精确地预测文本这个『投影』如何变化，神经网络必须在内部构建出那个投射出影子的实体的运行机制。就像柏拉图洞穴寓言的反向操作，模型只看墙上的影子，最后推导出了身后火把和物体的形状。有人做过一个著名的奥赛罗棋（Othello）实验。研究者只把棋谱（棋子的坐标序列）喂给 GPT，完全不告诉它规则和棋盘的样子。结果发现，模型为了预测下一步棋怎么走，竟然在神经网络的内部自行构建了一个 8x8 的二维棋盘表征。它甚至能判断棋子的死活。它没有被灌输规则，但为了预测得够准，它自己『发明』了规则。所谓的逻辑推理、情感分析、代码生成，都不过是模型为了极致地把『下一个词』猜对，而被迫进化出的副产品。当任务难度足够高，预测和理解在数学上就是等价的。你以为它在做填空题，实际上它为了填对这个空，在黑箱里把整个逻辑链推导了一遍。

0 阅读：0

为什么LLM仅预测下一词，就能「涌现」出高级能力？ 研究领域对此有何解释？

为什么LLM仅预测下一词，就能「涌现」出高级能力？研究领域对此有何解释？