不靠百万标注GUI智能体也能精准定位浙大新方法让GUI智能体无标签自我进化无需海

量子位看科技 2025-09-05 12:13:31

不靠百万标注GUI智能体也能精准定位浙大新方法让GUI智能体无标签自我进化

无需海量数据标注，智能体也能精确识别定位目标元素了！

来自浙大等机构的研究人员提出GUI-RCPO——一种自我监督的强化学习方法，可以让模型在没有标注的数据上自主提升GUI grounding（图形界面定位）能力。

何谓GUI grounding？为什么要提升这项能力？

简单而言，近年来，以视觉-语言模型为骨架的GUI智能体正在迅猛发展，只需要一句语言指令，它们就能像人一样手眼协同地操作电脑、手机、网页等界面。

GUI智能体的一个关键能力在于GUI grounding，也就是根据用户给出的自然语言指令，GUI智能体需要在用户界面中精确地识别并定位可操作的目标元素。

良好的GUI grounding能力可以使得GUI智能体更好地理解图形界面，以及完成更加精准地界面交互。

然而，想要训练这样一种看似简单的能力，却需要大规模高质量的标注数据——当前绝大多数方法动辄需要上百万级的标注数据，而构建这样的高质量的标注数据需要大量的人工和时间成本。

而GUI-RCPO正好解决了上述问题，其核心原理如下：

通过创新性地将Test-time Reinforcement Learning的思想迁移到GUI grounding任务上，利用模型在多次采样之间呈现出来的区域一致性来引导模型在无标签的数据上进行自我提升。

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

清华唐杰团队让大模型打牌大模型玩斗地主惯蛋清华唐杰团队新论文：大语言模型（LLM

2

OpenAI新幻觉论文惹争议GPT5拉胯难道是测试基准有问题OpenAI好不容易

3

如何引发顿悟时刻顿悟背后大脑原理这篇文章教你如何引发顿悟时刻。文章名：《难以捉摸

4

424页Agent构建指南谷歌免费Agent构建指南424页的Agent构建指南

5

英伟达推出通用深度研究系统英伟达深度研究系统可接入任何LLM英伟达也做深度研究智

6

OpenAI成立新秘密实验室OpenAI负责人另起炉灶OpenAI又要成立新团队

7

真开源具身大模型来了国产具身智能基座模型击败π0继π0后，具身智能基座模型在中国

8

减少大模型幻觉提示词如何减少大模型幻觉减少大模型幻觉提示词，Reddit大佬针对

9

Hinton被ChatGPT坑分手Hinton女友因AI跟他分手Hinton和女

10

Meta超级智能实验室首篇论文Meta给所有大模型提速30倍小扎下血本组建的超级

热门分类

科技TOP

1

10月份即将发布的新手机，看看有没有你喜欢的？

2

华为Mate70Pro在某多多上面百亿补贴的价格才四千多？敢不敢买？看上m

3

荣耀不讲武德[捂脸哭]荣耀500系列这是要卷死友商，不仅全系标配2亿大底主摄，电池

4

红米K90真长这样也挺好看的，或许这是前红米品牌总经理王腾的最后“遗作”瞄准高

5

我发誓，我的Mate60Pro还没捂热乎呢，Mate80的消息就直接要上王

6

有“高人”指点荣耀。荣耀推出“后悔宝”，让用户毋庸担心后悔购买搭载骁龙8ge

7

荣耀500系列曝光，全面对标苹果！荣耀500系列在工艺上完全对标苹果，中端机

8

前几天帮朋友挑1500内手机，线下导购推荐了荣耀GT，说性价比高、销量挺火。查了

9

荣耀Magic8标准版曝光，看着像是采用了4颗摄像头，然后是圆形的摄像头deco

10

荣耀GT的价格已经被干到了1455，即便是12G+256G的存储组合，但是好歹内

科技最新文章

1

小米15Ultra已在官网迎来首次调价，有着“夜神”代号的徕卡光学唯一一皇一

2

苹果史上最强钉子户：iPhone13面对17能否再战两年？17标准版相对于1

3

荣耀Magic8系列的最新配置来啦！通信芯片是C1+，这是从上一代的C2降级了吗

4

欧盟好样的！之前要求手机充电口必须是统一C口。让iPhone妥协了。这次如果要

5

最近网上流传的疑似华为Mate80Pro真机图，这个造型可太好看了，四面窄边框

6

华为Mate80屏幕双层OLED，RGB色，值得期待华为Mate80屏幕方面

7

目前可以闭眼入的5款荣耀手机1、荣耀X70，8300mAh青海湖电池+十面抗

8

感觉荣耀Magic8Pro会彻底杀疯，直接掀了友商桌子，7100mAh电池+信

9

大疆预告降价已购买消费者退货维权刚买就降价，谁的钱是大风刮来的？早买早享受不该

10

我坚持：米17标准版，是17系列性价比最高、表现最水桶的一款。粮厂给了它三个优势