[LG]《YourRewardFunctionforRLisYour

爱生活爱珂珂 2025-08-22 05:18:55

[LG]《Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS》C Jin, Y Zhou, Q Zhang, H Peng... [Rutgers University & Nanyang Technological University] (2025)

AIRL-S:革新LLM推理能力的统一框架

• 首次将RL(基于稀疏结果奖励)与基于搜索的Test-Time Scaling(TTS)自然融合,解决了传统方法中样本效率低、训练不稳和奖励模型静态失效等问题。

• 利用Adversarial Inverse Reinforcement Learning(AIRL)结合Group Relative Policy Optimization(GRPO),无需人工标注中间步骤奖励,直接从正确的推理轨迹中学习动态、稠密的Process Reward Model(PRM)。

• 训练出的PRM在推理时既作为RL中的评价者,也作为搜索算法(如Best-of-N采样、Beam Search、MCTS)的启发式指导,显著提升推理链扩展的连贯性与抗奖励作弊能力。

• 在数学、科学推理和代码生成等8个基准测试中,AIRL-S平均提升9%性能,达到甚至匹配GPT-4o表现。PRM跨模型、跨任务泛化能力强,优于所有基于标注数据训练的奖励模型。

• 研究展现奖励函数与搜索启发式的本质联系,证明RL中学习的奖励函数即为最优搜索PRM,提供一种低成本且高效的复杂推理任务解决方案。

详细解读👉 arxiv.org/abs/2508.14313

人工智能大语言模型强化学习搜索算法机器学习自然语言处理

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注