VLA较E2E-VLM的3个提升点

作者 | 理想TOP2 编辑 | 理想TOP2

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『大模型』技术交流群

本文只做学术分享,如有侵权,联系删文

原作者:大懒货

原文链接:

https://weibo.com/2062985282/PgmxNm2rL

以下为原文:

【技术向】自动驾驶 领域能工程落地【VLA】视觉语言动作模型的贡献价值

~不亚于我们成功搞定千T算力的自动驾驶芯片~

VLA可能是目前从高阶驾驶辅助【L2】走向真正自动驾驶【L3及更高】的关键敲门砖

基于目前学术研究探讨:AD领域 的VLA可能的工作流

可以拿Open-VLA 这个参考图作为举例

c132da6472c802cb9afe30cbfd48e116.png

1️⃣:信息感知:
多颗摄像头视频流、导航需求、自车定位、其他传感器信息通过统一编码、对齐
进入 基于基座模型蒸馏后应对驾驶领域专一的LLM模型【参量数B至数十B?或者更高】

2️⃣:决策输出
通过驾驶领域专一的LLM模型直接输出决策、决策转换为轨迹并直接输出控制细节

VLA相较于现在的E2E-VLM 有以下几个差异【或者直接说提升的点吧】:

1️⃣:如果全局直接用VLA来控制驾驶领域,首先不需要考虑端到端模型和VLM模型握手的问题,不太可能出现在VLM告知端到端模型该怎么做,但是端到端模型不太清楚该怎么做【因为现在这个信息握手仍然是通过人工定义的方式处理】

2️⃣:VLA的模型参量相较于现在VLM有大幅度的提升,因此非常有可能在驾驶领域涌现出弱的人工智能处理能力。换句话说,针对于没有针对性训练过的场景,VLA也能通过多步骤逻辑推理、分析等方式处理。针对于复杂场景的能力会明显变强。
我们都知道现在VLM更多是通过语言模型去做场景的感知联动元动作,存在一定的弱智能和推理能力【like 有车打灯要小心、复杂路口要小心】,但是特别复杂场景的、需要长上下文背景信息的推理能力还是比较弱的,而VLA通过增加参量、基座模型专一训练成驾驶领域都可以在有限算力【OrinX/Thor】下尽可能提升驾驶领域的通用理解和思考能力,就像拥堵场景用VLA去解会比现在E2E-VLM解的表现好的多的。

3️⃣:针对于基于LLM去探索AD,针对模型的幻觉。这个肯定要用类似模型化的主动安全或者用其他强化学习的方式去兜底。既然@刘杰-理想 大王已经官宣OrinX/Thor 都可以跑通VLA。那么大概率模型化的安全兜底应该也是跑通了。

再简单总结一下⭐⭐:
通过工程落地VLA,在2025年AD Max车主能看到在驾驶场景中,车辆会具备一定深度思考、复杂推理的一套智能驾驶。通过模型推理的方式让车辆更好应对复杂场景和那些可能没有见过的场景。
因为这个世界的变量太多了,我们很难通过数据训练实现模型应对100%的场景,因为能力泛化可能就需要基于模型分析、推理、乃至涌现的方式去实现~

① 自动驾驶论文辅导来啦

cede26febe8fa5c68fb44a6fa69c65fa.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

16a9f292aa446c8386e9895084efb4e7.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

893c0f2490fe5f4293bf7fefe99d7f34.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

772ee18546528ee6cefa906e75e36a14.png

### 如何利用视觉语言模型(VLM)实现端到端(E2E)自动驾驶系统 #### 背景与现状 近年来,随着自动驾驶技术的发展,在驾驶感知、运动预测以及规划领域均取得显著进步。特别是在端到端自动驾驶中,由于其能够依赖大规模数据展现强大的规划能力,因此备受关注[^1]。与此同时,大型视觉语言模型(LVLMs)在图像理解与推理方面的性能不断提升,使其具备分析复杂驾驶环境并作出安全决策的能力。 #### 方法概述 一种有效的方法是通过引入视觉语言模型作为监督机制来强化端到端自动驾驶系统的训练过程。这种方法被称为 **VLM-AD**,即通过视觉语言模型监督实现端到端自动驾驶。具体而言,现有端到端自动驾驶模型往往仅模仿数据中的驾驶行为模式,缺乏对底层推理过程的理解。而 VLM-AD 的创新之处在于利用视觉语言模型提供额外的监督信号,这些信号不仅包含非结构化的推理信息,还融合了结构化的动作标签[^2]。 #### 技术细节 以下是基于 VLM 实现 E2E 自动驾驶的核心要素: 1. **模型架构设计** 设计一个综合考虑视觉输入、自然语言描述和控制指令的多模态框架至关重要。例如,Vision-Language-Action Model (VLA) 是一种典型的端到端大模型,旨在统一处理感知、理解和行动三个阶段的任务。此类模型可以通过联合优化的方式学习复杂的驾驶策略[^3]。 2. **数据准备与预处理** 高质量的数据对于训练有效的 VLM-E2E 系统不可或缺。需要收集大量的真实世界驾驶场景数据,并标注相应的语义信息(如交通标志解释、行人意图等)。此外,还可以借助合成数据扩充训练样本空间,从而提升模型的鲁棒性和泛化能力。 3. **训练流程改进** 在传统监督学习的基础上加入来自视觉语言模型的知识蒸馏步骤,可以使学生网络更好地继承教师网络的强大表征能力。值得注意的是,尽管训练期间可能需要用到较重的 VLM 作为辅助工具,但在最终部署时可以移除这部分开销较大的组件,确保实时运行效率不受影响。 4. **评估与验证** 使用公开基准测试集(如 nuScenes)对比不同算法的表现是一项常规操作。实验结果显示,融入 VLM 监督后的端到端自动驾驶方案能够在保持较低碰撞风险的同时大幅改善路径规划精度。 ```python import torch from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer def initialize_vlm_model(): """ 初始化视觉语言模型 """ model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning") feature_extractor = ViTImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning") tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning") return model, feature_extractor, tokenizer model, feature_extractor, tokenizer = initialize_vlm_model() print("Visual Language Model Initialized.") ``` 上述代码片段展示了如何加载一个预先训练好的视觉语言模型实例用于后续开发工作。 --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值