理想最新DriveAction:探索VLA模型中类人驾驶决策的基准~

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享理想汽车最新的工作—DriveAction!探索VLA模型中类人驾驶决策的基准。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『多模态大模型』技术交流群

论文作者 | Yuhan Hao等

编辑 | 自动驾驶之心

研究背景与问题提出

在自动驾驶技术不断发展的进程中,Vision-Language-Action(VLA)模型凭借其强大的多模态处理能力,为自动驾驶系统的发展带来了新的机遇。然而,现有的基准数据集在场景多样性、动作级标注的可靠性以及与人类偏好一致的评估协议等方面存在明显不足,这严重制约了VLA模型的进一步发展和实际应用。

具体来看,现有基准数据集主要存在以下问题:

  • 场景多样性不足:大多数基准数据集基于开源数据构建,来源单一,难以覆盖现实驾驶中的各种复杂场景,如道路合并与出口、行人交互、施工区域等关键且具有挑战性的场景往往被忽视,导致评估结果与实际部署风险的相关性较低。

  • 动作标注不真实:部分基准数据集缺乏动作级标注,仅关注感知或理解任务;而采用手动标注动作标签的方法,由于是在驾驶行为发生后生成的,无法真实反映实时驾驶意图和决策,影响了评估的可靠性和真实性。

  • 评估框架不完善:现有评估框架大多未能充分捕捉驾驶决策的核心逻辑,要么专注于孤立任务,要么采用从感知到动作的顺序逻辑,无法体现目标驱动的决策模式,与现实人类驾驶决策的契合度不高。

DriveAction基准的核心创新

为解决上述问题,本文提出了DriveAction基准,这是首个专为VLA模型设计的动作驱动基准,具有以下三大核心创新:

(一)用户贡献的广泛覆盖驾驶场景

DriveAction数据集源自量产自动驾驶车辆内部测试用户主动收集的真实世界数据,与以往依赖自收集或开源数据的基准不同,它覆盖了中国148个城市以及所有量产车型的记录。通过多轮人工筛选和质量控制,确保了驾驶场景和动作的全面性和代表性。

该数据集涵盖了7大关键场景类别,包括匝道/侧路合并/分离、导航/效率驱动的变道、绕行弱势道路使用者、复杂路口等。每个场景都关联了多种细粒度动作,如变道、减速、绕行等,能够详细分析不同驾驶情况下的决策过程。

(二)与人类驾驶偏好一致的真实标注

DriveAction的动作标签直接来源于用户的实时驾驶操作,能够准确捕捉驾驶员决策时的真实意图。为了与端到端大型模型的输出粒度匹配,这些标签被离散化为高级动作,更好地反映了人类驾驶决策的分类性质。

所有标签都经过多轮人工验证,排除了错误、不合理或非法的行为,如意外的控制输入、与交通环境不符的突然停车、违反交通规则的动作等,确保了标注的可靠性和有效性。

(三)以动作为根的树状结构评估框架

DriveAction引入了以动作为根的树状结构评估框架,该框架基于动作决策动态映射所需的视觉和语言任务,通过整合丰富的context场景信息,确保模型决策在完整、现实的环境中进行。

  • 任务定义:该框架将评估逻辑设计为以动作为根的树状结构,上层是动作节点(如变道、路口转弯等),中间层是语言任务(如导航跟随、交通灯跟随等),底层是视觉任务(如车道、交通标志、障碍物检测等)。这种结构系统地将V-L-A任务整合到一个可扩展的框架中,支持针对每个动作的动态子任务组合,即使在复杂或长尾场景中也能进行全面的决策评估。

  • 场景信息设计:为模型评估提供了三种关键场景信息,包括连续的视觉帧(支持动态上下文中的时间推理)、导航指令(提供路线指导、即将到来的转弯和目标车道信息)、车辆速度(量化当前和期望的驾驶状态)。这些信息对于可靠和上下文感知的自动驾驶评估至关重要,能够有效减少模型的幻觉决策。

  • 灵活的评估模式:支持综合评估和特定任务评估两种模式。综合评估关注模型的最终决策输出,通过四种评估模式(全流程模式V-L-A、仅视觉模式V-A、仅语言模式L-A、无信息模式A)分析视觉和语言信息对整体动作决策的影响;特定任务评估则对层次树结构中的每个节点进行细粒度评估,帮助识别模型在感知、推理和决策技能方面的优势和劣势。

实验设计与关键发现

(一)实验设置

对12个广泛采用的VLM进行了评估,分为非推理模型(如GPT-4o、Claude 3.5 Sonnet等)和推理模型(如o1、Gemini 2.5 Pro等)。模型性能通过所有问题类型的准确率来衡量,包括选择题和判断题,实验使用VLMEvalKit实现。

(二)综合评估结果

实验结果表明,所有模型在全流程模式(V-L-A)下的准确率最高,在无信息模式(A)下的准确率最低。具体而言,移除视觉或语言模态都会导致性能下降:平均而言,没有视觉输入时准确率下降3.3%,没有语言输入时下降4.1%,两者都没有时下降8.0%。这充分说明最先进的VLM需要视觉和语言的双重指导才能做出最佳决策。

推理模型在复杂场景下通常优于非推理模型,例如o1和o3在V-L-A模式下的准确率超过92%。但在无信息模式下,一些非推理模型的表现与推理模型相当甚至更好。

(三)特定任务评估结果

特定任务评估揭示了模型在不同任务上的性能差异:

  • 动态和静态任务:模型在动态和静态障碍物任务上表现较好,这可能是由于训练数据中此类案例的普遍性和清晰标注。与效率任务相比,模型在障碍物相关任务上的较强表现表明当前模型倾向于采用保守策略,更注重避免碰撞而非优化效率。

  • 导航任务:导航仍然是一个持续的挑战,尽管大多数模型可以对明确的导航指令做出响应,但它们的得分明显较低,表明在准确的车道定位和全面的导航理解方面能力有限。

  • 交通灯任务:多个模型在交通灯任务上的准确率始终较低,凸显了这是一个持续的瓶颈。

(四)稳定性分析

通过对GPT-4.1 mini和Gemini 2.5 Pro在不同信息输入模式下的性能进行三次重复实验,结果显示它们的标准偏差通常低于0.3,表明DriveAction基准能够对自动驾驶模型进行稳定、客观的评估,确保性能测量在重复试验中具有可靠性和可重复性。

DriveAction的意义与价值

DriveAction基准的出现标志着自动驾驶评估领域的一个重要进步。它不仅为学术界提供了一个更全面、更真实的评估工具,有助于推动VLA模型的研究和发展,还为工业界的自动驾驶系统开发提供了有力的支持,能够帮助识别模型的瓶颈,指导系统的优化和改进。通过促进学术界和工业界在更一致的评估标准下开展研究,DriveAction有望加速自动驾驶技术向更安全、更智能的方向发展,为实现真正的自动驾驶奠定坚实的基础。

参考

[1] DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

资源下载链接为: https://pan.quark.cn/s/d9ef5828b597 四路20秒声光显示计分抢答器Multisim14仿真源文件+设计文档资料摘要 数字抢答器由主体电路与扩展电路组成。优先编码电路、锁存器、译码电路将参赛队的输入信号在显示器上输出;用控制电路和主持人开关启动报警电路,以上两部分组成主体电路。通过定时电路和译码电路将秒脉冲产生的信号在显示器上输出实现计时功能,构成扩展电路。经过布线、焊接、调试等工作后数字抢答器成形。关键字:开关阵列电路;触发锁存电路;解锁电路;编码电路;显示电路 一、设计目的 本设计是利用已学过的数电知识,设计的4人抢答器。(1)重温自己已学过的数电知识;(2)掌握数字集成电路的设计方法和原理;(3)通过完成该设计任务掌握实际问题的逻辑分析,学会对实际问题进行逻辑状态分配、化简;(4)掌握数字电路各部分电路与总体电路的设计、调试、模拟仿真方法。 二、整体设计 (一)设计任务与要求: 抢答器同时供4名选手或4个代表队比赛,分别用4个按钮S0 ~ S3表示。 设置一个系统清除和抢答控制开关S,该开关由主持人控制。 抢答器具有锁存与显示功能。即选手按动按钮,锁存相应的编号,并在LED数码管上显示,同时扬声器发出报警声响提示。选手抢答实行优先锁存,优先抢答选手的编号一直保持到主持人将系统清除为止。 参赛选手在设定的时间内进行抢答,抢答有效,定时器停止工作,显示器上显示选手的编号和抢答的时间,并保持到主持人将系统清除为止。 如果定时时间已到,无人抢答,本次抢答无效。 (二)设计原理与参考电路 抢答器的组成框图如下图所示。它主要由开关阵列电路、触发锁存电路、解锁电路、编码电路和显示电路等几部分组成。
### VLA模型概述 视觉-语言对齐(Vision-Language Alignment, VLA模型旨在弥合图像和其他视觉形式与文本之间的差距。这类模型能够理解并关联来自不同模态的信息,从而实现跨模态的任务处理能力[^1]。 #### 特征描述 VLA 模型通常具备多模态融合的能力,可以接受图片作为输入,并生成相应的文字说明;反之亦然——给定一段描述性的语句,能识别出匹配的场景或对象。这种双向映射机制使得机器不仅限于单一感知渠道的工作模式,而是能够在更广泛的范围内理解和表达信息[^2]。 #### 控制策略区分 需要注意,“目标-状态指导”的控制方法虽然也涉及到了视觉和语言两个方面,但由于其主要侧重于通过非言语的方式引导行为调整,因此并不完全属于典型的VLA范畴内。 ### 应用实例分析 在实际应用场景中,VLA技术已经被广泛应用于多个领域: - **智能助理**:利用VLA特性开发出来的虚拟助手可以帮助用户解释复杂的图表、照片等内容; - **无障碍辅助工具**:对于视障人士而言,基于VLA的应用程序可以通过语音播报来帮助他们获取周围环境的信息; - **教育软件**:教师可借助此类平台创建互动式的教学材料,使学生更容易掌握抽象概念。 此外,在研究项目LIBERO里展示了一种创新的做法,即直接采用预训练好的OpenVLA-SFT版本而无需额外的数据采集或是参数优化过程,大大降低了部署难度的同时保持了良好的性能表现[^3]。 ```python # 示例代码片段用于加载预训练VLA模型 from transformers import AutoModelForVision2Seq, AutoProcessor model_name = "openvlab/openvla-sft" processor = AutoProcessor.from_pretrained(model_name) model = AutoModelForVision2Seq.from_pretrained(model_name) image_path = "./example_image.jpg" text_query = "What is this picture about?" inputs = processor(image=image_path, text=text_query, return_tensors="pt") outputs = model.generate(**inputs) generated_text = processor.decode(outputs[0], skip_special_tokens=True) print(f"The generated description: {generated_text}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值