微软全新代码修复评测基准Agent全自动搭建代码运行环境长期以来主流的代码修复评

量子位看科技 2025-06-19 18:09:57

微软全新代码修复评测基准Agent全自动搭建代码运行环境

长期以来主流的代码修复评测基准SWE-bench面临数据过时、覆盖面窄、手动维护成本高等问题,严重制约了AI模型真实能力的展现。

微软发布全新代码修复评测基准SWE-bench-Live,不仅引入了来自GitHub最新的Issue,显著提升了对模型评估的实时性与准确性,还实现代码运行环境的全自动化构建与自动更新,打破了传统静态评测基准的局限。

更多技术细节,欢迎查看文章🔎

0 阅读:2
量子位看科技

量子位看科技

感谢大家的关注