不靠百万标注GUI智能体也能精准定位浙大新方法让GUI智能体无标签自我进化无需海

量子位看科技 2025-09-05 12:13:31

不靠百万标注GUI智能体也能精准定位浙大新方法让GUI智能体无标签自我进化

无需海量数据标注,智能体也能精确识别定位目标元素了!

来自浙大等机构的研究人员提出GUI-RCPO——一种自我监督的强化学习方法,可以让模型在没有标注的数据上自主提升GUI grounding(图形界面定位)能力。

何谓GUI grounding?为什么要提升这项能力?

简单而言,近年来,以视觉-语言模型为骨架的GUI智能体正在迅猛发展,只需要一句语言指令,它们就能像人一样手眼协同地操作电脑、手机、网页等界面。

GUI智能体的一个关键能力在于GUI grounding,也就是根据用户给出的自然语言指令,GUI智能体需要在用户界面中精确地识别并定位可操作的目标元素。

良好的GUI grounding能力可以使得GUI智能体更好地理解图形界面,以及完成更加精准地界面交互。

然而,想要训练这样一种看似简单的能力,却需要大规模高质量的标注数据——当前绝大多数方法动辄需要上百万级的标注数据,而构建这样的高质量的标注数据需要大量的人工和时间成本。

而GUI-RCPO正好解决了上述问题,其核心原理如下:

通过创新性地将Test-time Reinforcement Learning的思想迁移到GUI grounding任务上,利用模型在多次采样之间呈现出来的区域一致性来引导模型在无标签的数据上进行自我提升。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注