[LG]《YourRewardFunctionforRLisYour

爱生活爱珂珂 2025-08-22 05:18:55

[LG]《Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS》C Jin, Y Zhou, Q Zhang, H Peng... [Rutgers University & Nanyang Technological University] (2025)

AIRL-S：革新LLM推理能力的统一框架

• 首次将RL（基于稀疏结果奖励）与基于搜索的Test-Time Scaling（TTS）自然融合，解决了传统方法中样本效率低、训练不稳和奖励模型静态失效等问题。

• 利用Adversarial Inverse Reinforcement Learning（AIRL）结合Group Relative Policy Optimization（GRPO），无需人工标注中间步骤奖励，直接从正确的推理轨迹中学习动态、稠密的Process Reward Model（PRM）。

• 训练出的PRM在推理时既作为RL中的评价者，也作为搜索算法（如Best-of-N采样、Beam Search、MCTS）的启发式指导，显著提升推理链扩展的连贯性与抗奖励作弊能力。

• 在数学、科学推理和代码生成等8个基准测试中，AIRL-S平均提升9%性能，达到甚至匹配GPT-4o表现。PRM跨模型、跨任务泛化能力强，优于所有基于标注数据训练的奖励模型。

• 研究展现奖励函数与搜索启发式的本质联系，证明RL中学习的奖励函数即为最优搜索PRM，提供一种低成本且高效的复杂推理任务解决方案。

详细解读👉 arxiv.org/abs/2508.14313

人工智能大语言模型强化学习搜索算法机器学习自然语言处理

0 阅读：0

猜你喜欢

英伟达认了！8月19日深夜路透社爆料，把老黄送上热搜：英伟达内部文件和三位项目工

英伟达认了！8月19日深夜路透社爆料，把老黄送上热搜：英伟达内部文件和三位项目工

【103评论】【60点赞】

英伟达路透社芯片 it芯片

小米su7质量问题

小米su7质量问题

【3评论】【1点赞】

小米科技小米su7

vivo进场啦！vivo开大了！果不其然，今年各大厂商都开始出小屏旗舰了，从

vivo进场啦！vivo开大了！果不其然，今年各大厂商都开始出小屏旗舰了，从

vivo 小屏 vivox30

好家伙原来现在红米低端机性价比连魅族都赶不上了，魅族放出了两张图对比了硬件配置，

好家伙原来现在红米低端机性价比连魅族都赶不上了，魅族放出了两张图对比了硬件配置，

魅族红米手机魅族 Note 16 Pro

华为nova14系列官方降价优惠了！nova14标准版调价200元nova14

华为nova14系列官方降价优惠了！nova14标准版调价200元nova14

【2评论】【1点赞】

华为Nova nova14 华为鸿蒙系统

刚才有粉丝问我，iPhone17售价4499元起，这价格能买吗？我说iPhone

刚才有粉丝问我，iPhone17售价4499元起，这价格能买吗？我说iPhone

iPhone

两则重磅信息传来，AI芯片股沸腾了！DeepSeekUE8M0FP8针对即

两则重磅信息传来，AI芯片股沸腾了！DeepSeekUE8M0FP8针对即

【1点赞】

ai芯片 deepseek 海光信息英伟达 it芯片人工智能

魅族22果然跳票了！魅族官方确认，魅族22跳票了，正式跳票已经第二次了，但自称事

魅族22果然跳票了！魅族官方确认，魅族22跳票了，正式跳票已经第二次了，但自称事

魅族

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

深度解析GPU架构：AI工程师必读• DeepMind团队详解GPU核心架构，重

2

RAG检索加速新突破：利用Binary Quantization实现40倍速提升

3

交通事故数据新标杆：TUM Traffic Accident 数据集及实时检测框

4

NVIDIA Nemotron Nano 2：融合Mamba-Transform

5

[LG]《Understanding Data Influence with D

6

[LG]《Amortized Bayesian Meta-Learning fo

7

[LG]《Graph Concept Bottleneck Models》H X

8

[LG]《Compute-Optimal Scaling for Value-B

9

[LG]《Your Reward Function for RL is Your

10

早！[太阳] 早安

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

2

2025年，中国大陆制造的成熟芯片，占比全球产量28%，预计到2027年，占比将

3

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

4

国产7nm终于可以公开了！近日，华为Pura80系列通过HarmonyOS

5

手机圈来袭！9-10月新机扎堆亮相荣耀Magic8Pro主打超强AI，

6

李想谈供应商黑幕在《罗永浩的十字路口》节目中，提到有的供应商欺负他们，明明给理

7

华为用高通芯片，我不奇怪。手机参数页隐去处理器型号，我也不惊讶。实在没想

8

华为Pura80系列销售情况还是不太乐观，Pura80标准版开售20天的销

9

要买荣耀400Pro的人一定要听劝！后悔可就来不及了，如果只是当做备用机千万

10

苹果手机，从4-8是一个世代，X系列属于苹果手机基因突变，11-16算是第二世代

科技最新文章

1

太爽了，华为也不忍了，干脆直接明牌，麒麟9020公开显示。余承东心情美丽，Pur

2

荣耀Magic8mini爆料汇总，这不得卖爆？机圈又刮起小屏风，基本各家都

3

1.今年发布的mate80系列所搭载的麒麟9030大概率是等效5nm，主频能拉

4

华为Pura80系列销售情况还是不太乐观，Pura80标准版开售20天的销

5

用华为手机的人和用其他手机的人的区别！用华为的人，一般都不咋吭声。为啥？因为

6

国产7nm终于可以公开了！近日，华为Pura80系列通过HarmonyOS

7

罗永浩说李想活的太舒服了李想的创业路，从被150个投资人拒绝，到没钱机场躺平，

8

李想自曝初中凭买漫画书赚钱这是从小就有商业头脑啊，怪不得能把理想

9

李想谈供应商黑幕在《罗永浩的十字路口》节目中，提到有的供应商欺负他们，明明给理

10

好消息！荣耀终于想通了，小屏旗舰这块蛋糕还是得来分一块，6.3寸的荣耀Magic