新华社专访何小鹏！！自动驾驶将到来！很多人可能不明白这次小鹏的VLA2.0和之前

新华社专访何小鹏！！自动驾驶将到来！

很多人可能不明白这次小鹏的VLA2.0和之前到底的区别是什么，什么说去掉了L，我来尽量的科普一下，有不明白的欢迎评论区提出。

我们先来看VLA的模型架构：

Vison（视觉3D模块）：提取BEV/Occupancy 3D特征 →用3D编码器把空间信息变为连续的3D Token。但是要命的是后面的LLM是“大语言模型”，根本看不懂3D Token，需要再通过一种3D Projector解释器，转换成LLM能看懂的“视觉向量”。后面为了更通俗的说，我就把它称作专供给LLM的“视觉语言”。

Language（LLM模块）：这里的 L严格的说并不是语言，而是LLM模块，也就是大语言模型，核心推理引擎。LLM平时是吃语言类Token，这次改成吃能与语言类Token兼容，就需要转成刚刚说的LLM专供“视觉语言”，最后输出Action Token。

Action（动作模块）：把Action Token转为物理世界的动作控制，当然了中间也要尽量弄的更丝滑连贯。

所以其实VLA中的L并不是指“人类的语言文字”，而是指把3D token 转化成 LLM 能理解的“视觉语言”，并且经过 LLM 推理的过程。

这有一个转换过程，而且LLM本身在复杂场景下的效率，还是有非常大的掣肘。因为LLM做决策是串行生成，就是像跟人说话一样，要一个token一个token的往外蹦。

然后后面就是小鹏的VLA2.0了，去掉了L，那到底是去掉了什么呢？

首先，去掉了把视觉3D Token转化为LLM模块能理解的步骤，就是那个类似语言 token 的LLM 能理解的“视觉语言”。

但是最要命的是，中间的LLM大语言模块看不懂3D token呀，所以小鹏不再使用传统的LLM，而是研发了一个全新的多模态模型，直接就能吃掉3D token，吐出Action token。

最后总结一下：

VLA1.0：视觉等信息->3D Token->类似语言Token格式的“视觉语言”->LLM大语言模型->动作Token

即把视觉打扮成大语言模型能看懂的样子，再推理出动作。

小鹏VLA2.0：视觉等信息->3D Token->原生多模态大模型->动作Token

不转格式了，让多模态大模型直接吃视觉，推理出动作。

去掉中间的转换步骤只是其中之一，更核心的是，LLM不再作为中间层参与决策，而使用多模态大模型，直接输出控制信号。

比如去年春节的 Deepseek 是属于 LLM，即大语言模型。而今年春节期间爆火的视频生成模型Seedance 2.0，其实和小鹏这个类似，也同样是属于多模态大模型，只不过作用不一样。

所以，小鹏的 VLA 2.0，更严格的说，应该叫VMA（Vision-MultiModal-Action）

小鹏还叫它 VLA 2.0，只是沿用技术名词、方便用户理解，毕竟他们一直宣传比较弱，新造词不容易让大部分人理解，但架构上严格的说，已经不是原来的 VLA 了。

所以说，小鹏第二代VLA是其全栈自研的物理世界基座模型，开创性地将传统的VLA模型简化为“V-A”架构，并且该模型除了可以应用在自动驾驶领域，还可以泛化到Robotaxi、飞行汽车和人形机器人等相关领域。

新华社点赞小鹏第二代VLA换道超车新华社评小鹏与特斯拉全球直接竞争大v聊车小鹏汽车

0 阅读：0