微软全新代码修复评测基准Agent全自动搭建代码运行环境长期以来主流的代码修复评

量子位看科技 2025-06-19 18:09:57

微软全新代码修复评测基准Agent全自动搭建代码运行环境

长期以来主流的代码修复评测基准SWE-bench面临数据过时、覆盖面窄、手动维护成本高等问题，严重制约了AI模型真实能力的展现。

微软发布全新代码修复评测基准SWE-bench-Live，不仅引入了来自GitHub最新的Issue，显著提升了对模型评估的实时性与准确性，还实现代码运行环境的全自动化构建与自动更新，打破了传统静态评测基准的局限。

更多技术细节，欢迎查看文章🔎

0 阅读：2

量子位看科技

感谢大家的关注

作者最新文章

1

GitHub数据工程师手册数据工程师资源汇总GitHub上发布的《数据工程师手册

2

华为正式发布鸿蒙6Harmony6小艺更聪明刚刚，华为余承东在HDC2025上正

3

科学家发现病毒细菌中间体科学家发现远古寄生菌最近，科学家意外发现了一种前所未见的

4

AGI概念为何争论不休AGI只是营销概念吗究竟什么是AGI，为何AI圈子争论不休

5

Altman称自己孩子永远比不上AIAltman靠ChatGPT带娃今年2月，S

6

微软全新代码修复评测基准Agent全自动搭建代码运行环境长期以来主流的代码修复评

7

摩尔线程IPO辅导验收完成国产GPU离上市更近了国产GPU企业摩尔线程，已完成I

8

万字披露奥特曼AI帝国OpenAI资本布局被揭露“AI行业观察大项目”《Open

9

大模型集体痴迷数字27AI无法生成随机数大模型无法生成随机数？27、37、42…

10

AI即使答案对但逻辑全乱AI奥数证明成功率不到一半AI在数学证明中翻车了！哪怕答

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

2

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

3

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

4

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

5

2025年，中国大陆制造的成熟芯片，占比全球产量28%，预计到2027年，占比将

6

国产7nm终于可以公开了！近日，华为Pura80系列通过HarmonyOS

7

美团退款好像最近两年没有出现过退款异常的，主要还是2014-2018年囤积的未使

8

华为用高通芯片，我不奇怪。手机参数页隐去处理器型号，我也不惊讶。实在没想

9

李想谈供应商黑幕在《罗永浩的十字路口》节目中，提到有的供应商欺负他们，明明给理

10

手机圈来袭！9-10月新机扎堆亮相荣耀Magic8Pro主打超强AI，

科技最新文章

1

首款曲面iPhone如果是真的，我想看看以前那些喷曲面屏的人是怎么吹曲面有多好的

2

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

3

美团退款好像最近两年没有出现过退款异常的，主要还是2014-2018年囤积的未使

4

“中美差距究竟有多大？”DeepSeek创始人梁文锋再次语出惊人！他说：“我们经

5

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

6

iPhone17ProMax和前代对比，有了显著的升级，不能再说挤牙膏了1

7

英伟达，承认了！据路透社消息，英伟达高层内部已经确定将为中国重新定制AI芯片

8

华为Mate80全系参数很猛！等对了！最近看到有很多博主分享了华为Mate80系

9

真我来掀桌子了，这配置不得卖爆了？搞性价比，真我是来真的，新款真我GT8P

10

太爽了，华为也不忍了，干脆直接明牌，麒麟9020公开显示。余承东心情美丽，Pur