[LG]《SkillRL:EvolvingAgentsviaRecurs

[LG]《SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning》P Xia, J Chen, H Wang, J Liu... [UNC-Chapel Hill] (2026)

LLM智能体虽然在复杂任务中展现出惊人的潜力，但它们往往面临一个致命的缺陷：孤立运行，无法从过去的经验中学习。现有的记忆机制大多只是机械地存储原始轨迹，这些数据不仅冗余且充满噪声，导致智能体难以提取出真正具有泛化能力的逻辑。

如何让智能体像人类专家一样，从经验中抽象出可复用的技能，而非死记硬背？

SkillRL框架提供了一个全新的视角。它通过自动技能发现与递归进化，在原始经验与策略改进之间架起了一座桥梁。核心理念在于：有效的经验传递需要抽象。人类专家不会记住每一个动作，而是开发出紧凑且可复用的技能。

SkillRL的核心组件是层次化技能库SkillBank。它将知识分为两个维度：通用技能负责全局战略引导，如系统化搜索和状态校验；任务特定技能则沉淀局部启发式策略。这种抽象机制实现了10到20倍的Token压缩，让智能体在有限的上下文窗口内，拥有了更高效的推理效用。

进化不应是静态的，而是一个动态的闭环。SkillRL引入了递归进化机制，让技能库与智能体策略在强化学习过程中共同成长。在每个验证周期后，系统会自动分析失败模式，生成新技能或修正现有技能。这种在战争中学习战争的模式，确保了技能库能随着任务复杂度的提升而不断自我迭代。

为了解决基础模型不会使用技能的问题，SkillRL设计了冷启动监督微调阶段。通过教师模型生成的推理轨迹，教会智能体如何检索、理解并应用这些抽象技能。随后，利用GRPO算法进行强化学习，在保持技能利用能力的同时，最大化任务成功率。

实验结果令人振奋。在ALFWorld、WebShop等挑战性基准测试中，基于Qwen2.5-7B的SkillRL性能提升了15.3%以上，显著超越了GPT-4o和Gemini-2.5-Pro等闭源巨头。这证明了结构化的经验抽象可以弥补模型规模的差距，让开源小模型也能在专业领域展现出顶尖的竞技水平。

SkillRL的研究揭示了一个深刻的洞察：智能体的真正进化，不在于存储了多少数据，而在于从数据中提炼出了多少原则。当智能体学会了自我反思与技能沉淀，它就从一个单纯的执行者转变为一个能够持续自我完善的学习者。

真正的智慧不在于记住了多少细节，而在于从细节中提炼出了多少通往成功的路径。当技能库开始递归进化，智能体才真正拥有了跨越任务边界的生命力。

arxiv.org/abs/2602.08234

0 阅读：0