阿里新方法提醒大模型别点错AI操作有了紧急刹车大模型操控界面，常常出错。哪怕是G

量子位看科技 2025-06-17 18:09:08

阿里新方法提醒大模型别点错AI操作有了紧急刹车

大模型操控界面，常常出错。哪怕是GPT-4o，也可能因为缺乏常识，在关键时刻点错按钮。

为解决这个问题，阿里通义实验室和中科院自动化所联合推出GUI-Critic-R1。在模型执行前，它就能判断操作是否靠谱，提前制止不可逆的错误。

比如搜索会议文件、删除重复项、录制视频等任务中，它都能准确识别智能体的错误操作，并提供合理建议，大大减少失误。

团队构建了一个反思模型+数据链路体系：

- 设计数据采集流程：结合推理生成6K条高质量“思考-评分-建议”数据；

- 两阶段训练模型：先用人类标注冷启动，再用建议感知优化策略提升泛化能力；

- 数据覆盖mobile和web多个场景，训练出的模型能跨环境、跨任务稳健应对。

实验显示，在多个测试集和真实GUI平台上，GUI-Critic-R1表现超越其他大模型。特别是在AndroidWorld实测中，成功率最高、操作步骤最少。

0 阅读：1

量子位看科技

感谢大家的关注

作者最新文章

1

为什么和AI聊天会上瘾AI真的有情感吗为什么和AI聊天会上瘾？背后其实有一套精心

2

马斯克再告OpenAI并拉上苹果马斯克怒喷iOS强推ChatGPT马斯克又把Op

3

苹果折叠屏最新爆料苹果折叠屏TouchID回归苹果折叠屏的新消息来了：- 厚度控

4

AI落地项目合集LLM实战项目大全GitHub揽获62.2K Star的项目：A

5

第七届科学探索奖公布50位青年科学家人均获300万刚刚，第七届科学探索奖名单出炉

6

130道题实测主流大模型AI大模型怎么选主流大模型哪家强？有人用130道真实问题

7

卡帕西分享VibeCoding指南卡帕西VibeCoding新心得大神卡帕西分享

8

Meta牵手MidjourneyMeta与Midjourney深度合作Meta正

9

特斯拉将搭载豆包和DeepSeek特斯拉语音交互要改豆包了特斯拉中国车型的语音系

10

告别炼丹玄学首个大模型数据竞技场数据在AI时代的重要性已经不言而喻，但悬而未决的

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

2

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

3

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

4

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

5

2025年，中国大陆制造的成熟芯片，占比全球产量28%，预计到2027年，占比将

6

国产7nm终于可以公开了！近日，华为Pura80系列通过HarmonyOS

7

手机圈来袭！9-10月新机扎堆亮相荣耀Magic8Pro主打超强AI，

8

李想谈供应商黑幕在《罗永浩的十字路口》节目中，提到有的供应商欺负他们，明明给理

9

华为用高通芯片，我不奇怪。手机参数页隐去处理器型号，我也不惊讶。实在没想

10

美团退款好像最近两年没有出现过退款异常的，主要还是2014-2018年囤积的未使

科技最新文章

1

据说今年的华为Mate80系列参数很猛，可以等一等已经看到有博主开始爆料华为

2

荣耀目前最火爆的三款新手表，怎么选择合适？荣耀Fit，荣耀手表5，荣耀手表5U

3

首款曲面iPhone如果是真的，我想看看以前那些喷曲面屏的人是怎么吹曲面有多好的

4

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

5

美团退款好像最近两年没有出现过退款异常的，主要还是2014-2018年囤积的未使

6

“中美差距究竟有多大？”DeepSeek创始人梁文锋再次语出惊人！他说：“我们经

7

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

8

vivo进场啦！vivo开大了！果不其然，今年各大厂商都开始出小屏旗舰了，从

9

iPhone17ProMax和前代对比，有了显著的升级，不能再说挤牙膏了1

10

英伟达，承认了！据路透社消息，英伟达高层内部已经确定将为中国重新定制AI芯片