知名AI研究员FrançoisChollet对VLM/VLA架构的

映梦说汽车啊 2025-08-12 10:35:16

知名 AI 研究员 François Chollet 对 VLM/VLA 架构的质疑:

顶尖的大语言模型在文字方面的世界知识已经比人还厉害,顶尖的图像/视频模型在视觉方面的世界知识(比如 Genie)也很强。

但现在的顶尖视觉-语言模型(VLM)还是很拉胯。原因是:图文配对的数据很少(虽然单独的文字数据和单独的图像/视频数据都很多)。可这并不是人类的思维方式。

人类的理解是「组合式」的,也就是说,我们能把两个领域的知识结合起来理解,不需要先看过大量这两个领域一一对应的配对例子。

就像读书时,大多数人都能在脑海里想象故事画面,不管文字描述的场景多离谱——而人类并没有看过几亿条「文字 - 视频」对应的内容,几乎压根没接触过这种东西。

0 阅读:0
映梦说汽车啊

映梦说汽车啊

感谢大家的关注