【小鹏为什么没上DeepSeek,是因为在做VLM大杀器】
春节期间DeepSeek爆火之际,本土车企纷纷宣布把DeepSeek深度融合进了车机。在这波热潮里,小鹏是少数的例外之一。
事后诸葛亮地来看,小鹏之所以没上DeepSeek,因为它当时正在做端侧VLM这个大杀器。
本土车企基于DeepSeek的座舱方案与小鹏AI座舱端侧VLM方案的主要区别到底在哪里?
那些在云端借助DeepSeek超强推理能力的车企在座舱智能系统上走的是端云结合,而小鹏汽车AI座舱VLM完全不依赖云端,座舱智能系统全部在本地实现。
友商的端云结合类似于自动驾驶领域在端到端范式出现之前的分模块方案,在本地做感知,将感知结果上传云端,依靠云端部署的DeepSeek做决策,云端将DeepSeek生成的结果或指令下发给车端,再在车端本地执行,而小鹏的端侧VLM则是在本地同时完成感知、决策、执行,是座舱领域的端到端方案!
正如端到端范式的出现使得自动驾驶系统的性能比分模块方案提升了一个数量级一样,小鹏在本地部署视觉语言模型,这种端到端方案在性能上也会大幅度超越传统的端云结合那种分模块方案。
正如感知是自动驾驶的核心一样,多模态感知也是智能座舱的核心,基于这个逻辑,分模块端云结合路线不及小鹏端到端VLM方案的原因大致有二。
其一,分模块自动驾驶系统在感知和决策之间存在因人工定义结构化数据带来的大量信息损失,同样,端云结合的分模块智能座舱方案在本地感知和云端DeepSeek之间也存在巨大的信息鸿沟。
其二,即便云端DeepSeek随着时间的推移慢慢具备了多模态能力,但根据汽车数据安全的标准规范,作为多模态感知重要组成部分的人脸、表情这些信息是不允许出车的。巧妇难为无米之炊,没有这些重要的模态信息,DeepSeek多模态能力再强也找不到用武之地!
很显然,DeepSeek能力再强,也得看它能不能真正地在AI汽车里派上用场。
对于智能电动汽车这类AI+硬件,人们希望它具备自然交互、自主移动两大核心能力,自然交互对应的是AI座舱的本质需求,自主移动则是自动驾驶系统的核心价值。
先说多模态交互,人类和智能系统之间的人机交互是包含声音、文字、图片、视频、触控等多种信息源在内的综合交互,小鹏汽车之所以放弃DeepSeek,是因为自然的人机交互需要的本地多模态感知和以文本能力为主的云端DeepSeek之间存在巨大的信息鸿沟。
这里面不仅包括因DeepSeek多模态能力不足导致的模态丢失,还包括因汽车数据安全规范导致的信息细节丢失,模态不足和信息细节丢失最终导致的结果是无法准确判断用户的意图。用户意图都识别不清,千人千面的服务又何从谈起?
再说实时交互。
人与智能座舱之间的人机交互必须满足一定的实时性需求,比如,触控响应延迟一般要小于100毫秒,手势识别和眼动交互延迟要小于150毫秒,语音响应要小于300毫秒,才能带来流畅的交互体验。显然,唯有在端侧处理且不依赖网络的本地模型才能满足这种实时性要求。
总结一下,在本地部署座舱VLM大模型,不仅能满足本地用户隐私数据不出车的安全要求,还能实现实时的多模态交互。
除了这些优点,本地部署的端侧大模型无需借助云端,从而避开了在海外建设云端运营中心的各种麻烦问题,能够更好地配合出海和全球化战略。新能源大牛说