看了了Π*0.6的论文,核心结论是:Π*0.6 作为首个融合真实世界强化学习的 VLA 模型,通过 RECAP 范式突破了传统模仿学习的局限,让机器人在真实场景中具备自主进化能力,鲁棒性和任务成功率大幅提升。一、核心定位:不止于模仿学习的具身智能突破Π*0.6 是 Physical Intelligence 团队推出的最新 VLA 模型,核心差异是加入真实世界强化学习(RL),而非单纯依赖监督学习(模仿学习)。解决了传统 VLA 模型的关键痛点:模仿学习易出现 “累积错误”,小误差逐步放大导致任务失败,而强化学习让机器人能从自身经验(包括错误)中持续优化。二、核心技术:RECAP 强化学习范式数据收集:包含机器人自主运行数据和人工干预纠正数据,专门针对机器人自身错误提供解决方案。价值函数训练:训练多任务价值函数,判断当前状态离任务成功的距离,且能随数据积累持续优化。优势条件化策略训练:计算动作的 “优势分数”(积极 / 消极),作为额外输入喂给模型,引导其学习有效动作、规避错误动作。三、基础模型升级(Π0.6 底座)模型架构强化:采用更大的视觉语言骨干(Gemma3 4B),动作专家参数扩容至 8.6 亿。功能优化:支持输入动作速度、力度等 metadata,强化双向注意力 + 知识隔离机制,数据覆盖度和多样性提升。原生能力提升:未做任务微调时,在叠衣服、装箱等复杂任务上已超越前代 Π0.5。四、实际效果与应用场景任务表现:叠衣服、制作浓缩咖啡、组装盒子等真实场景任务成功率超 90%(最难衣物除外),吞吐量翻倍,失败率降低 2 倍以上。落地能力:可连续 13 小时制作咖啡、数小时折叠多样衣物、在工厂组装包装盒子,达到实用级稳健性。五、技术亮点与挑战关键亮点:价值函数解决长序列任务 “信任分配” 难题,优势条件策略适配 VLA 大模型,能从失败数据中高效学习。现存挑战:技术管线更繁琐,包含价值函数训练和迭代强化学习,复现难度高于前代模型。
