[LG]《DerivingNeuralScalingLawsfromt - 科技资讯(藏书网)

[LG]《Deriving Neural Scaling Laws from the statistics of natural language》F Cagnetta, A Raventós, S Ganguli, M Wyart [SISSA & Stanford University] (2026)

大模型性能随数据量增长而呈幂律提升，这已是AI界的常识。但你是否想过，那个决定进步快慢的幂律指数究竟从何而来？

长期以来，缩放法则（Scaling Laws）更像是一个经验公式，而非严谨的物理定律。最近，来自Francesco Cagnetta和Surya Ganguli等学者的研究，首次从语言统计学的“第一性原理”出发，推导出了神经网络的缩放指数。

本文不仅解释了AI为什么会进步，更揭示了语言本身如何塑造了智能的演进。

1. 缩放法则的本质是“视界”的扩张

过去我们认为，模型性能提升是因为它对所有规律都学得更精细了。但这项研究提出了一个迷人的视角：学习的过程本质上是预测视界（Prediction Time Horizon）的不断延伸。

随着训练数据量的增加，模型并不是在原地踏步地优化，而是获得了“看穿时间”的能力。它开始能捕捉到更久远之前的标记（Tokens）与当前预测之间的微弱联系。数据越多，模型能有效利用的上下文就越长。

金句：智能的增长，本质上是模型在信息迷雾中看清未来的距离。

2. 两个决定命运的关键指数

研究发现，语言数据中有两个核心统计特征，共同决定了模型进步的斜率：

第一个是 $\gamma$（Gamma）：它描述了随着上下文长度增加，预测下一个词的难度（条件熵）下降有多快。这代表了语言中蕴含的信息密度。

第二个是 $\beta$（Beta）：它描述了两个词之间的关联性随距离增加消失得有多快。这代表了语言结构的长期依赖强度。

这两个指数完全由数据集本身决定，与模型架构无关。

3. 那个优美的预测公式

基于这两个统计量，作者推导出了一个极其简洁的公式，用于预测数据受限情况下的缩放指数 $\alpha_D$：

$\alpha_D = \gamma / (2\beta)$

这个公式没有任何自由参数，也不需要任何合成数据。研究团队在 TinyStories 和 WikiText 两个截然不同的数据集上进行了验证，发现理论预测值与 GPT-2、LLaMA 等模型的实际训练表现惊人地一致。

金句：大模型的进化速度，早已写在人类语言的统计基因里。

4. 幂律背后的“曲线坍缩”

为了验证理论，研究者观察了一个神奇的现象：$n$-gram 损失函数的坍缩。

当你把不同上下文长度下的学习曲线，按照理论推导的比例进行缩放后，所有杂乱无章的曲线竟然重合在了一起，形成了一条完美的“母曲线”。这意味着，无论模型是在学习短距离的语法还是长距离的逻辑，它们遵循的底层逻辑是完全统一的。

5. 深度思考：架构的普适性与局限

这项研究最深刻的启示在于：对于现代深度神经网络（如 Transformer）来说，缩放指数主要由数据特征决定。

只要架构足够深、表达能力足够强，它们都会进入同一个“通用性类别”。这意味着，单纯在现有架构上做小修小补，可能无法改变缩放指数的上限。

但这也留下了一个悬念：是否存在某种尚未被发现的架构或算法，能够跳出当前的统计限制，实现比现有幂律更高效的学习？

6. 结语

这项工作将缩放法则从“炼金术”推向了“化学”。它告诉我们，LLM 的成功并非偶然，而是数学上的必然。

当我们感叹 AI 的强大时，或许更应该感叹人类语言结构的精妙。正是这种结构，为硅基智能提供了一条通往理解的阶梯。

理解了统计规律，我们才算真正开始理解智能的边界。

arxiv.org/abs/2602.07488