[LG]《DistilledPretraining:Amodernlen

爱生活爱珂珂 2025-09-04 06:32:07

[LG]《Distilled Pretraining: A modern lens of Data, In-Context Learning and Test-Time Scaling》S Goyal, D Lopez-Paz, K Ahuja [FAIR at Meta] (2025)

Distilled Pretraining(蒸馏预训练)为现代大语言模型(LLM)带来了全新视角,揭示了数据利用、上下文学习与测试时扩展能力间的复杂权衡。

• 即使在数据完全共享(IsoData)条件下,蒸馏预训练依然提升了模型在标准语言建模任务上的表现,表明其价值超越了单纯数据增加的范畴。

• 蒸馏过程削弱了模型的上下文学习能力,尤其是基于“induction heads”的复制机制,原因在于软标签对低熵(确定性)映射的监督削弱,影响了模型对上下文中特定token的精确复制。

• 与此相反,蒸馏大幅提高了模型生成的多样性,极大增强了测试时多尝试(Pass• 基于大ram模型的分析表明,蒸馏加速了高熵(多样性大)的token分布学习,但对低熵(确定性)模式无明显帮助,且可能因教师模型的不完美引入噪声,降低低熵模式学习效率。

• 实践中通过“Token Routing”策略,针对低熵token跳过蒸馏损失,能部分缓解上下文学习性能下降,且不会损害标准任务表现。

• 不同教师模型对蒸馏效果影响显著:强化学习(RL)训练的教师模型比基础模型更有利于提升学生模型能力,尤其在推理、编程及通用语言任务中表现更优。

• 蒸馏预训练在提升基础模型多样性和测试时扩展性方面的优势,可持续至后续的推理数据后训练阶段,彰显其作为基础改进的价值。

心得:

1. 蒸馏不仅是数据增量的替代,更通过软标签丰富了模型对多样答案空间的理解,促进了生成多样性,这对推理和搜索任务尤为关键。

2. 上下文学习与测试时扩展能力之间存在根本冲突——提升生成多样性往往以牺牲复制精度为代价,设计预训练策略需权衡此点。

3. 针对不同token采用差异化蒸馏监督(如Token Routing)是缓解性能冲突的有效路径,未来的预训练数据集和蒸馏方法应更精细化设计以适配现代LLM需求。

了解更多🔗arxiv.org/abs/2509.01649

大语言模型知识蒸馏预训练上下文学习测试时扩展模型多样性

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注