大模型能边画边想AI空间推理能力新突破空间推理成了大模型的新战场。换句话说,就是

量子位看科技 2025-06-22 14:11:18

大模型能边画边想AI空间推理能力新突破

空间推理成了大模型的新战场。

换句话说,就是模型能“边看边画,边画边想”:在推理过程中主动对图像动手脚,比如绘制参考线、框选关键区域,来捕捉更精准的空间关系。相比传统“视觉转文本”的方式,ViLaSR-7B更像人类那样,借助图形操作引导理解,解决了细节丢失和时空信息混乱的问题。

不卖关子,这就是蚂蚁技术研究院联合中科院自动化所、港中文大学,开源的视觉语言模型 ViLaSR-7B,在迷宫导航、视频理解等五大任务上平均提升18.4%。在最具挑战的VSI-Bench上,更是追平Gemini-1.5-Pro,刷新SOTA成绩。

模型不仅表现好,而且具备类人的空间思维策略:会主动找参考物推理、系统性跨帧追踪物体。更聪明、更像人,是它最大的进步。

0 阅读:2

猜你喜欢

量子位看科技

量子位看科技

感谢大家的关注