VLM与VLA的区别是什么？当前自动驾驶落地的情况怎么样？

最新推荐文章于 2025-07-11 00:30:00 发布

自动驾驶之心

最新推荐文章于 2025-07-11 00:30:00 发布

阅读量1.6k

点赞数

CC 4.0 BY-SA版权

文章标签：自动驾驶人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247656256&idx=1&sn=80f6ba002e529b953553fadfee24ed7e&chksm=cfee9b78431e17e3002a33e48772176bfeb950ce2759813fd36aeba3b469fac40b1dd6c85a00&scene=126&sessionid=0

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

去年理想对外展示快慢系统后，VLM在自驾的应用落地正式对外展露。今年智驾行业又在主推VLA，相比于端到端+VLM方式，VLA方案拥有更高的场景推理能力与泛化能力。不少智驾领导者都将VLA视为当下“端到端”方案的2.0版本，VLA也被看成是端到端+VLM的合体。VLM关注的重点在于环境建模，VLA除了考虑环境建模，还需要关注规划和控制问题，这是两者的区别。

VLM的应用怎么样？

视觉语言模型在座舱域的应用可能更加直接，交互也容易些。这也是为什么座舱域更容易接入。VLM在自驾域的应用，分为辅助功能和直接预测轨迹。

理想的快慢系统给出了第一个辅助应用的答案，这一点发布会上有很清晰的描述。端到端模型速度快，大模型帧率低，无法实时交互，那么是否可以把VLM输出的结果给未来帧作为参考，提供一定的经验或者矫正，无论是特征级别还是后处理层面，相信是一个很好的辅助。地平线的Senna也给出了具体的方案，VLM的缺点是对于精确的数值预测不是很好，但是对于预测意图或者粗粒度的规划是很好的，E2E系统到现在依然无法解决一些复杂的长尾场景。Senna工作中，VLM做高层次的planning decisions，进而指引E2E系统的轨迹预测。

当下公开的论文，像DriveGPT、DriveGPT4、DriveVLM、OmniDrive等任务直接输出规划或预测轨迹点信息，这一点接近了VLA本身，但存在真实场景中高质量数据收集较难、实时部署较难等一系列的问题。如果只有纯视觉输入，除了参数量，本质上可以用端到端模型来替代，但参数量上来了，模型的性能上限也会出现非常大的差异。

VLA可能有哪些优势？

可以说VLA是端到端2.0，VLA的关键特性是思维链，这一点和当下的端到端有所不同，例如潮汐车道，基于VLA的智能驾驶车辆，能通过文本等看懂可逆车道的道路标志，从多重信息中确认此时的潮汐车道是否可行驶，并通过转向灯等与其他车辆交互，随即变换车道，进行转向，最终行驶至潮汐车道中。利用类人的思维，通过对全局上下文的了解，去了解车道的情况，与其他车辆交互，并做出最优的、安全的决策。

VLA大模型直接用统一的参数处理原来的分层任务，和现在的端到端模型相似。但大模型的参数量大，微调到下游任务也比较方便。

VLA具备更强的泛化能力，这一点和具身领域比较相似，零样本、新场景的泛化能力会有明显提升。

VLA在自动驾驶中应用会有哪些难点？

高质量数据依然是瓶颈，即使是finetune，怎么解决数据分布不均衡问题，怎么减少模型本身的经验导致的错误输出？

VLA的部署，算力上支持的不是很好，英伟达的Thor也许是一个很好的解决方案，千T的算力加持。极氪自研的浩瀚智驾系统率先成为全球首款搭载英伟达Thor芯片的量产车型，期待后面的自驾公司产生更多有效、稳定的方案！

VLM/VLA在训练中可以增强端到端任务

VLM和VLA也可以很有效增强现有端到端任务，主要体现在以下部分：

提升泛化能力，处理长尾场景：通过引入LLM，E2E模型能够更好地处理罕见和复杂的驾驶场景，知识迁移可以完成长尾场景的学习，大模型的零样本能力也是值得关注的点。

丰富的语义信息，辅助推理：视觉语言模型可以生成更有解释性的结果，为E2E模型提供了丰富的语义信息，帮助模型更好地理解驾驶环境。

提高规划性能，降低轨迹误差：DiMA在nuScenes数据集上实现了37%的L2轨迹误差降低。多模的轨迹输出更符合现实需求，进而减少碰撞率：VLM-AD和DiMA均显著降低了碰撞率。

知识蒸馏助力实时部署：通过将大模型的知识蒸馏到更小的模型中，可以在保持高性能的同时显著减少计算量和模型大小。

增强可解释性：VLM-AD通过预测人类可解释的动作标签，增强了模型决策的可解释性。