阿里新方法提醒大模型别点错AI操作有了紧急刹车
大模型操控界面,常常出错。哪怕是GPT-4o,也可能因为缺乏常识,在关键时刻点错按钮。
为解决这个问题,阿里通义实验室和中科院自动化所联合推出GUI-Critic-R1。在模型执行前,它就能判断操作是否靠谱,提前制止不可逆的错误。
比如搜索会议文件、删除重复项、录制视频等任务中,它都能准确识别智能体的错误操作,并提供合理建议,大大减少失误。
团队构建了一个反思模型+数据链路体系:
- 设计数据采集流程:结合推理生成6K条高质量“思考-评分-建议”数据;
- 两阶段训练模型:先用人类标注冷启动,再用建议感知优化策略提升泛化能力;
- 数据覆盖mobile和web多个场景,训练出的模型能跨环境、跨任务稳健应对。
实验显示,在多个测试集和真实GUI平台上,GUI-Critic-R1表现超越其他大模型。特别是在AndroidWorld实测中,成功率最高、操作步骤最少。