2025 年中国头部智驾的年度目标,逃不出 L3、VLA 视觉语言动作模型、世界模型这些概念。
但上面这些词里有截然不同的概念,准确地说,L3 和其他词是完全不同的东西,你们都意识到了吗?
L3 是功能。SAE 国际汽车工程师协会定义的自动驾驶标准,叫「有条件的自动驾驶」,但 L3 的本质,是由工程师明确的规则、标准定义出来,用以实现具体行为或任务的一个功能。
作为一个功能,L3 一旦被实现,它的表现和边界通常是固定的。在工程师定义的运行场景内,系统可以自动驾驶,运行场景之外的,需要人类介入。
L3 在更新给用户之前,需要进行测试、验证,失效场景也被清晰的定义。
所以 L3 的关键词其实是静态、有明确定义、边界清晰,便于监管。
而所谓的 VLA、VLM 世界模型这些概念,从根本上来说都属于「数据驱动的智能驾驶 AI」,无论哪家车企,设计这样的 AI 目标是为了让它学人开车,最终比人开得更安全、更舒适。
但无论是人还是 AI,「会驾驶汽车」不是一个功能,这是一项能力。
AI 是能力,AI 驾驶汽车的表现,会通过学习、适应和积累经验变得越来越好。AI 也很难通过明确的代码、明确的规则定义。
无论是人还是 AI,驾驶汽车的能力会随着驾驶的时长、遇到的场景的增加而进化,比如老司机比新手司机开得更好,事故率更低。所以 AI 的表现和边界是动态的,不固定的。
AI 在更新之前有没有测试?和大模型一样,虽有,但和汽车工业传统功能安全定义那一套其实完全不同。由于 AI 的边界模糊,其实难以通过有限的测试和验证进行全面评估。
所以 AI 的关键词其实是动态、没明确定义,边界模糊,难以监管。
如果你不了解这些概念,我还想过一个例子,L3 就类似洗衣机的「标准洗涤模式」,固定时长、固定水量、固定转速、固定洗涤剂、固定衣物,结果完全可预测。你用了一年,洗衣机不会越来越擅长洗衣服。洗衣机说明书定义了洗衣机。
AI 就类似做菜,一开始你可能只泡得一手好泡面,随着时间的推移,你开始看更多菜谱,学更多菜系,还学会了根据家人口味即兴发挥。你的厨艺是动态变化的,菜谱无法定义你。
功能和能力不仅不同,实际上是完全对立的。虽然都是头部智驾玩家,但他们的目标是完全不同的。