新华社专访何小鹏!!自动驾驶将到来!
很多人可能不明白这次小鹏的VLA2.0和之前到底的区别是什么,什么说去掉了L,我来尽量的科普一下,有不明白的欢迎评论区提出。
我们先来看VLA的模型架构:
Vison(视觉3D模块):提取BEV/Occupancy 3D特征 →用3D编码器把空间信息变为连续的3D Token。但是要命的是后面的LLM是“大语言模型”,根本看不懂3D Token,需要再通过一种3D Projector解释器,转换成LLM能看懂的“视觉向量”。后面为了更通俗的说,我就把它称作专供给LLM的“视觉语言”。
Language(LLM模块):这里的 L严格的说并不是语言,而是LLM模块,也就是大语言模型,核心推理引擎。LLM平时是吃语言类Token,这次改成吃能与语言类Token兼容,就需要转成刚刚说的LLM专供“视觉语言”,最后输出Action Token。
Action(动作模块):把Action Token转为物理世界的动作控制,当然了中间也要尽量弄的更丝滑连贯。
所以其实VLA中的L并不是指“人类的语言文字”,而是指把3D token 转化成 LLM 能理解的“视觉语言”,并且经过 LLM 推理的过程。
这有一个转换过程,而且LLM本身在复杂场景下的效率,还是有非常大的掣肘。因为LLM做决策是串行生成,就是像跟人说话一样,要一个token一个token的往外蹦。
然后后面就是小鹏的VLA2.0了,去掉了L,那到底是去掉了什么呢?
首先,去掉了把视觉3D Token转化为LLM模块能理解的步骤,就是那个类似语言 token 的LLM 能理解的“视觉语言”。
但是最要命的是,中间的LLM大语言模块看不懂3D token呀,所以小鹏不再使用传统的LLM,而是研发了一个全新的多模态模型,直接就能吃掉3D token,吐出Action token。
最后总结一下:
VLA1.0:视觉等信息->3D Token->类似语言Token格式的“视觉语言”->LLM大语言模型->动作Token
即把视觉打扮成大语言模型能看懂的样子,再推理出动作。
小鹏VLA2.0:视觉等信息->3D Token->原生多模态大模型->动作Token
不转格式了,让多模态大模型直接吃视觉,推理出动作。
去掉中间的转换步骤只是其中之一,更核心的是,LLM不再作为中间层参与决策,而使用多模态大模型,直接输出控制信号。
比如去年春节的 Deepseek 是属于 LLM,即大语言模型。而今年春节期间爆火的视频生成模型Seedance 2.0,其实和小鹏这个类似,也同样是属于多模态大模型,只不过作用不一样。
所以,小鹏的 VLA 2.0,更严格的说,应该叫VMA(Vision-MultiModal-Action)
小鹏还叫它 VLA 2.0,只是沿用技术名词、方便用户理解,毕竟他们一直宣传比较弱,新造词不容易让大部分人理解,但架构上严格的说,已经不是原来的 VLA 了。
所以说,小鹏第二代VLA是其全栈自研的物理世界基座模型,开创性地将传统的VLA模型简化为“V-A”架构,并且该模型除了可以应用在自动驾驶领域,还可以泛化到Robotaxi、飞行汽车和人形机器人等相关领域。
新华社点赞小鹏第二代VLA换道超车新华社评小鹏与特斯拉全球直接竞争 大v聊车 小鹏汽车



