理想Mind-VLA展示的几个Demo,其价值并不在于所演示的场景,而是智能驾驶

大雨车观察 2025-03-18 18:35:54

理想Mind-VLA展示的几个Demo,其价值并不在于所演示的场景,而是智能驾驶的技术方向开始朝着多模态、个性化做预演和量产探索。

“告诉车去星巴克”、“快一点、慢一点”、本质是人与车,人与AI模型的互动方式变化。当前的E2E系统在车端是一个推理模型,只执行特定任务,只干开车这件事。能够输入的信息,就是感知、导航、驾驶员操作这一类信息。

智驾开启后,人与系统的互动或者叫人的输入,主要是:刹车、踩加速、调车速、打转向灯这几种。本质上用语音喊“快一点”、“慢一点”,就是调车速。找星巴克、根据照片找位置,就是导航,只是输入端不是导航地图,而是视觉识别和视觉定位。

这几个Demo展示的,是Mind-VLA通过大语言模型的能力,来输出Action token,即用语言输出指令。之前这些指令,是通过拨杆、踏板、物理按键的信号输入,现在变成了语言(语音)输入。

看到这里,你是不是会觉得这几个demo,没那么神奇和牛掰了。其实这件事,还是牛掰的。demo只是表面,背后的技术路线,预示了智驾的未来走向。

语言相比物理按键的信号输入,包含的信息量更大,范围更广。当车端模型能理解语言,能接受语言输入,理论上我们就可以训练车端个性化、本地化的驾驶风格。

你可以告诉车子:今天车上有老人和孩子,要开慢一点;也可以告诉车子:上班,需要开快一点;当模型被反复输入这些指令,就能训练出不同场景的驾驶风格,或者只训练一种你喜欢的驾驶风格。

当然以上,也需要理想开放接口(我不确认是否会这么做),允许用户参与驾驶风格训练,同时车端算力也要有足够的储备,当然你也要划设好红线,避免恶意的训练和输入。

所以理想今天的演示,只是万里长征的第一步,Mind-VLA的想象空间还很大,很开心这一步,是由中国品牌走出来的。

0 阅读:0
大雨车观察

大雨车观察

感谢大家的关注