GRPO性能跃升的关键在于通过每个prompt进行多次rollout实现奖励/价

爱生活爱珂珂 2025-08-10 09:31:55

GRPO性能跃升的关键在于通过每个prompt进行多次rollout实现奖励/价值的校准，使得奖励值在不同任务和模型表现间具备可比性。

• 未校准的0/1二值奖励难以判断模型解决的是简单问题还是难题，导致策略更新模糊。

• 对于更细腻的BT奖励（连续标量0~1），同一分数在不同prompt下含义差异巨大，缺乏统一参考。

• GRPO多rollout将奖励分布校准成近似高斯分布，使奖励值在各prompt间具备一致语义，避免训练中随机提升或降低样本价值。

• 相关工作提出基于参考模型响应分布，将奖励校准为经验分布的逆CDF，简化为训练前离线多次采样，训练时仅需简单逆CDF变换。

• 该方法对现有RL算法仅需两行代码改动，rollouts离线完成，适用所有训练epoch和超参搜索，显著提升标准RL性能，创下多项SOTA纪录。

• 同时支持根据推理时的采样算法对奖励作进一步变换，增强测试时性能表现。

• 详见ICML 2025发表论文：arxiv.org/abs/2412.19792

• 相关理论分析和成功放大机制可参考Youssef Mroueh关于GRPO的深入研究：arxiv.org/abs/2503.06639

这一策略有效解决了奖励非均质性带来的训练偏差，是提升LLM推理质量和安全性的重要突破。

详细讨论🔗 x.com/abeirami/status/1954164566876684587

强化学习奖励校准语言模型 GRPO 机器学习 ICML2025

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

早！[太阳] 早安

2

大型语言模型（LLM）幻觉现象的全面分类与本质解析• 理论必然性 - Ma

3

12-Factor Agents：构建高质量生产级LLM应用的12条核心原则，助

4

如何提升API性能？全面策略解析：• 分页（Pagination） - 基

5

系统设计速查，助力构建高可扩展、高可用、高可靠的应用架构：• 核心原则：扩展性（

6

为什么《Designing Data-Intensive Application

7

PDF 转结构化格式的利器：Dolphin，字节跳动开源文档解析框架，专注于将复

8

AI Agent 记忆构建核心解析，助力上下文工程精准落地• 记忆定义：通过提示

9

OPPO AI Agent Team 提出 Efficient Agents 框

10

Deep Agents：LangChain深度挖掘Claude Code、Man

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

格力把高管送去火焰山猴哥都抹汗的地方朱总靠空调坚持了下来。😅孙悟空要是有这条

2

本月早些时候，微软宣布裁员9000人，引发了外界对公司未来战略与员工士气的广

3

2025下半年新机打架谁是你的菜？

4

没有中国移动董事长杨杰的提醒，可能我不会关注我的移动套餐，一个月129块，一年要

5

被董明珠说中了！内鬼作乱，国产芯片出了大问题，技术遭严重泄露，然而一查却发现，主

6

iPhone17系列基本已经爆料的差不多了，大家感觉还值得入手吗？[思考]

7

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

8

我有种预感，中国芯片行业要变天了。不是因为政策扶持，也不是技术突破，而是上海

9

二季度小米手机全球市场份额第三小米第三就算了，第一的竟然不是苹果，而是三星，这

10

光刻机没用了，荷兰太冤了？美国一纸命令，荷兰就果断切断了对我们的光刻机出口。他们

科技最新文章

1

一汽丰田高管给雷军和小米汽车挑错我觉得小米没错，错的蹭流量的车企！[并不简单]

2

华为新款MatePad11.5S即将发布从前代的亮点来看，新机大概率还是围绕屏幕

3

这是三星哪款小折叠？还是透明版的喂！

4

余承东在华为还能更进一步吗？有网友就如下问题进行了激烈争论：大嘴余承东在华为的

5

我直接好家伙！高通这是想钱想疯了吧！骁龙8Elite魔改成骁龙8Gen5继续割韭

6

英伟达说H20没后门，结果底裤都被扒干净了！玉渊潭天直接把芯片拆到晶体管级，发现

7

荣耀MagicOS10.0要来了！这些机型能“尝鲜”！宝子们，重磅消息！荣耀

8

作为一个一台手机升级了鸿蒙5，一台依旧保持4.3系统的花粉，说说鸿蒙系统近期“刷

9

5699的时候，你们说太贵5199的时候，你们又说贵4699的时候，有的人说

10

8月新手机官宣了：REDMINote15Pro系列荣耀MagicVFli