[LG]《DistilledPretraining:Amodernlen

爱生活爱珂珂 2025-09-04 06:32:07

[LG]《Distilled Pretraining: A modern lens of Data, In-Context Learning and Test-Time Scaling》S Goyal, D Lopez-Paz, K Ahuja [FAIR at Meta] (2025)

Distilled Pretraining（蒸馏预训练）为现代大语言模型（LLM）带来了全新视角，揭示了数据利用、上下文学习与测试时扩展能力间的复杂权衡。

• 即使在数据完全共享（IsoData）条件下，蒸馏预训练依然提升了模型在标准语言建模任务上的表现，表明其价值超越了单纯数据增加的范畴。

• 蒸馏过程削弱了模型的上下文学习能力，尤其是基于“induction heads”的复制机制，原因在于软标签对低熵（确定性）映射的监督削弱，影响了模型对上下文中特定token的精确复制。

• 与此相反，蒸馏大幅提高了模型生成的多样性，极大增强了测试时多尝试（Pass• 基于大ram模型的分析表明，蒸馏加速了高熵（多样性大）的token分布学习，但对低熵（确定性）模式无明显帮助，且可能因教师模型的不完美引入噪声，降低低熵模式学习效率。

• 实践中通过“Token Routing”策略，针对低熵token跳过蒸馏损失，能部分缓解上下文学习性能下降，且不会损害标准任务表现。

• 不同教师模型对蒸馏效果影响显著：强化学习（RL）训练的教师模型比基础模型更有利于提升学生模型能力，尤其在推理、编程及通用语言任务中表现更优。

• 蒸馏预训练在提升基础模型多样性和测试时扩展性方面的优势，可持续至后续的推理数据后训练阶段，彰显其作为基础改进的价值。

心得：

1. 蒸馏不仅是数据增量的替代，更通过软标签丰富了模型对多样答案空间的理解，促进了生成多样性，这对推理和搜索任务尤为关键。

2. 上下文学习与测试时扩展能力之间存在根本冲突——提升生成多样性往往以牺牲复制精度为代价，设计预训练策略需权衡此点。

3. 针对不同token采用差异化蒸馏监督（如Token Routing）是缓解性能冲突的有效路径，未来的预训练数据集和蒸馏方法应更精细化设计以适配现代LLM需求。

了解更多🔗arxiv.org/abs/2509.01649

大语言模型知识蒸馏预训练上下文学习测试时扩展模型多样性

0 阅读：0

猜你喜欢

你走了一些弯路，你犯了一个错，对有些人确是一辈子。

你走了一些弯路，你犯了一个错，对有些人确是一辈子。

教师

教师有可能会看教龄直接晋级。不看好，只是有一点点可能。根据2024

教师有可能会看教龄直接晋级。不看好，只是有一点点可能。根据2024

【3评论】

教师

频繁投诉老师，一家长爆发了老师下学期你还教我吗

频繁投诉老师，一家长爆发了老师下学期你还教我吗

班主任老师教师

简介改了

简介改了

学校校长的老婆两个多月前得病去世，谁去补这个缺呢？有两个年轻女教师明里暗里去争，

学校校长的老婆两个多月前得病去世，谁去补这个缺呢？有两个年轻女教师明里暗里去争，

【2评论】【3点赞】

教师女教师

教师发展中心主任和一位教研员都被调查了，其中一位还是省级优秀教师。这个消息让不少

教师发展中心主任和一位教研员都被调查了，其中一位还是省级优秀教师。这个消息让不少

【2评论】【4点赞】

教师老师

开学之前宣布教师任课和班主任安排，回到办公室，没有一位老师过来找我。这就是新

开学之前宣布教师任课和班主任安排，回到办公室，没有一位老师过来找我。这就是新

【2点赞】

教师

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

深度解析为何不推荐 Ollama，推荐多 GPU 服务器使用 vLLM 或 Ex

2

Jupyter Agent Dataset：针对数据分析与代码智能的标杆训练集，

3

新书《Agentic Design Patterns》由谷歌专家 Antonio

4

[人人能懂] 从社交脑到自我精炼（扫码收听）

5

[LG]《Distilled Pretraining: A modern len

6

[LG]《When Agents go Astray: Course-Corre

7

[LG]《Learning to Refine: Self-Refinement

8

[CL]《Jointly Reinforcing Diversity and Q

9

[LG]《Social World Models》X Zhou, J Liu,

10

早！[太阳] 早安

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

【华为MateXTs非凡大师及全场景新品发布会官宣9月4日举办，将

2

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

3

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

4

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

5

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

6

小米澎湃OS3官宣8月28日发布了，而且值得一提的是这次是OS3单开一场，可

7

真我15000mAh新机曝光，从系统UI来看，这款手机似乎就叫“15000mAh

8

小米澎湃OS3眼看小米澎湃的发布会要开了，这次升级最核心的就是手机系统，改动确实

9

2025年，中国大陆制造的成熟芯片，占比全球产量28%，预计到2027年，占比将

10

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

科技最新文章

1

荣耀GT2配置提前看，应该就是今年最强中高端性价比手机大体的参数已经确定，

2

这是谁同意的？荣耀500Pro改设计了？这果里果气的确定好看？相对于外观设计

3

历代iPhone对比，17Pro真的很丑吗？我们是终于等到了iPhone改外观

4

荣耀GT2配置提前看，应该就是今年最强中高端性价比手机大体的参数已经确定，内

5

中国留给美国只有5-8年时间。深圳新凯来公司主动曝光成为爆炸性新闻，意味中国基本

6

朋友问我这几款手机怎么选，计划长期用下去，不想折腾来回换手机简单对比下来，荣

7

iPhone的A处理器永远比不上M处理器哪怕是A20pro也比不上M1

8

小米终于想通了下一代旗舰全系标配100W快充，还有7000mAh电池，再次领先

9

小米手机16系列全系参数曝光！米粉速瞅小米16系列发布时间确定9月25日左右，

10

一加这是不打算给友商留活路了啊。刚看到一加Ace6Pro的爆料，我下巴都快