[LG]《Compute-OptimalScalingforValue-B

爱生活爱珂珂 2025-08-22 06:36:18

[LG]《Compute-Optimal Scaling for Value-Based Deep RL》P Fu, O Rybkin, Z Zhou, M Nauman... [UC Berkeley] (2025)

深度强化学习(RL)训练成本日益攀升,如何在有限计算预算内实现性能最大化成为关键课题。最新研究针对基于价值的深度RL方法,揭示模型容量与更新数据比(UTD ratio)之间的复杂交互,提出了实现计算最优利用率的系统化策略。

• 发现“TD-过拟合”现象:小模型在大批量训练时验证误差反而增加,原因是低容量模型产生的TD目标质量较差;大模型则能有效利用大批量降低训练误差,提升泛化能力。

• 构建批量大小与模型容量、UTD比的经验模型,明确了随着模型增大应增大批量,随UTD增大应减小批量的非线性关系。

• 提出联合优化模型规模与UTD比的计算资源分配法则,基于数据效率和总预算(计算+数据成本)实现性能最大化。

• 通过17个挑战性机器人控制任务验证,发现多种配置均可达到近似最优,提供灵活且鲁棒的超参数调优建议。

• 研究进一步表明,TD目标质量主导过拟合风险,且目标网络更新率对规模扩展影响有限,学习率在合理范围内对性能影响较小。

该工作为基于TD学习的深度RL提供了与语言模型类似的计算扩展规律,开启了大规模高效训练的实践路径,兼顾了理论洞察与工程可行性。

了解详情👉 arxiv.org/abs/2508.14881

强化学习 深度学习 计算优化 机器人控制 机器学习研究

0 阅读:1
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注