VLA较E2E-VLM的3个提升点

最新推荐文章于 2025-08-14 16:28:18 发布

转载最新推荐文章于 2025-08-14 16:28:18 发布 · 696 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247657082&idx=5&sn=b66117f22084f99593d087e8a99ac613&chksm=cf351682eb0185d2d21cd4f0efabf4cfdc70f25883ca7991a9b7201fa5efebce8f59b69288c0&scene=126&sessionid=0

作者 | 理想TOP2 编辑 | 理想TOP2

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『大模型』技术交流群

本文只做学术分享，如有侵权，联系删文

原作者：大懒货

原文链接：

https://weibo.com/2062985282/PgmxNm2rL

以下为原文：

【技术向】自动驾驶领域能工程落地【VLA】视觉语言动作模型的贡献价值

~不亚于我们成功搞定千T算力的自动驾驶芯片~

VLA可能是目前从高阶驾驶辅助【L2】走向真正自动驾驶【L3及更高】的关键敲门砖

基于目前学术研究探讨：AD领域的VLA可能的工作流

可以拿Open-VLA 这个参考图作为举例

1️⃣：信息感知：
多颗摄像头视频流、导航需求、自车定位、其他传感器信息通过统一编码、对齐
进入基于基座模型蒸馏后应对驾驶领域专一的LLM模型【参量数B至数十B？或者更高】

2️⃣：决策输出
通过驾驶领域专一的LLM模型直接输出决策、决策转换为轨迹并直接输出控制细节

VLA相较于现在的E2E-VLM 有以下几个差异【或者直接说提升的点吧】：

1️⃣：如果全局直接用VLA来控制驾驶领域，首先不需要考虑端到端模型和VLM模型握手的问题，不太可能出现在VLM告知端到端模型该怎么做，但是端到端模型不太清楚该怎么做【因为现在这个信息握手仍然是通过人工定义的方式处理】

2️⃣：VLA的模型参量相较于现在VLM有大幅度的提升，因此非常有可能在驾驶领域涌现出弱的人工智能处理能力。换句话说，针对于没有针对性训练过的场景，VLA也能通过多步骤逻辑推理、分析等方式处理。针对于复杂场景的能力会明显变强。
我们都知道现在VLM更多是通过语言模型去做场景的感知联动元动作，存在一定的弱智能和推理能力【like 有车打灯要小心、复杂路口要小心】，但是特别复杂场景的、需要长上下文背景信息的推理能力还是比较弱的，而VLA通过增加参量、基座模型专一训练成驾驶领域都可以在有限算力【OrinX/Thor】下尽可能提升驾驶领域的通用理解和思考能力，就像拥堵场景用VLA去解会比现在E2E-VLM解的表现好的多的。

3️⃣：针对于基于LLM去探索AD，针对模型的幻觉。这个肯定要用类似模型化的主动安全或者用其他强化学习的方式去兜底。既然@刘杰-理想大王已经官宣OrinX/Thor 都可以跑通VLA。那么大概率模型化的安全兜底应该也是跑通了。

再简单总结一下⭐⭐：
通过工程落地VLA，在2025年AD Max车主能看到在驾驶场景中，车辆会具备一定深度思考、复杂推理的一套智能驾驶。通过模型推理的方式让车辆更好应对复杂场景和那些可能没有见过的场景。
因为这个世界的变量太多了，我们很难通过数据训练实现模型应对100%的场景，因为能力泛化可能就需要基于模型分析、推理、乃至涌现的方式去实现~

① 自动驾驶论文辅导来啦

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）