点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享理想汽车最新的工作—DriveAction!探索VLA模型中类人驾驶决策的基准。如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>点击进入→自动驾驶之心『多模态大模型』技术交流群
论文作者 | Yuhan Hao等
编辑 | 自动驾驶之心
研究背景与问题提出
在自动驾驶技术不断发展的进程中,Vision-Language-Action(VLA)模型凭借其强大的多模态处理能力,为自动驾驶系统的发展带来了新的机遇。然而,现有的基准数据集在场景多样性、动作级标注的可靠性以及与人类偏好一致的评估协议等方面存在明显不足,这严重制约了VLA模型的进一步发展和实际应用。
具体来看,现有基准数据集主要存在以下问题:
场景多样性不足:大多数基准数据集基于开源数据构建,来源单一,难以覆盖现实驾驶中的各种复杂场景,如道路合并与出口、行人交互、施工区域等关键且具有挑战性的场景往往被忽视,导致评估结果与实际部署风险的相关性较低。
动作标注不真实:部分基准数据集缺乏动作级标注,仅关注感知或理解任务;而采用手动标注动作标签的方法,由于是在驾驶行为发生后生成的,无法真实反映实时驾驶意图和决策,影响了评估的可靠性和真实性。
评估框架不完善:现有评估框架大多未能充分捕捉驾驶决策的核心逻辑,要么专注于孤立任务,要么采用从感知到动作的顺序逻辑,无法体现目标驱动的决策模式,与现实人类驾驶决策的契合度不高。

DriveAction基准的核心创新
为解决上述问题,本文提出了DriveAction基准,这是首个专为VLA模型设计的动作驱动基准,具有以下三大核心创新:

(一)用户贡献的广泛覆盖驾驶场景
DriveAction数据集源自量产自动驾驶车辆内部测试用户主动收集的真实世界数据,与以往依赖自收集或开源数据的基准不同,它覆盖了中国148个城市以及所有量产车型的记录。通过多轮人工筛选和质量控制,确保了驾驶场景和动作的全面性和代表性。
该数据集涵盖了7大关键场景类别,包括匝道/侧路合并/分离、导航/效率驱动的变道、绕行弱势道路使用者、复杂路口等。每个场景都关联了多种细粒度动作,如变道、减速、绕行等,能够详细分析不同驾驶情况下的决策过程。
(二)与人类驾驶偏好一致的真实标注
DriveAction的动作标签直接来源于用户的实时驾驶操作,能够准确捕捉驾驶员决策时的真实意图。为了与端到端大型模型的输出粒度匹配,这些标签被离散化为高级动作,更好地反映了人类驾驶决策的分类性质。
所有标签都经过多轮人工验证,排除了错误、不合理或非法的行为,如意外的控制输入、与交通环境不符的突然停车、违反交通规则的动作等,确保了标注的可靠性和有效性。
(三)以动作为根的树状结构评估框架
DriveAction引入了以动作为根的树状结构评估框架,该框架基于动作决策动态映射所需的视觉和语言任务,通过整合丰富的context场景信息,确保模型决策在完整、现实的环境中进行。
任务定义:该框架将评估逻辑设计为以动作为根的树状结构,上层是动作节点(如变道、路口转弯等),中间层是语言任务(如导航跟随、交通灯跟随等),底层是视觉任务(如车道、交通标志、障碍物检测等)。这种结构系统地将V-L-A任务整合到一个可扩展的框架中,支持针对每个动作的动态子任务组合,即使在复杂或长尾场景中也能进行全面的决策评估。
场景信息设计:为模型评估提供了三种关键场景信息,包括连续的视觉帧(支持动态上下文中的时间推理)、导航指令(提供路线指导、即将到来的转弯和目标车道信息)、车辆速度(量化当前和期望的驾驶状态)。这些信息对于可靠和上下文感知的自动驾驶评估至关重要,能够有效减少模型的幻觉决策。
灵活的评估模式:支持综合评估和特定任务评估两种模式。综合评估关注模型的最终决策输出,通过四种评估模式(全流程模式V-L-A、仅视觉模式V-A、仅语言模式L-A、无信息模式A)分析视觉和语言信息对整体动作决策的影响;特定任务评估则对层次树结构中的每个节点进行细粒度评估,帮助识别模型在感知、推理和决策技能方面的优势和劣势。



实验设计与关键发现
(一)实验设置
对12个广泛采用的VLM进行了评估,分为非推理模型(如GPT-4o、Claude 3.5 Sonnet等)和推理模型(如o1、Gemini 2.5 Pro等)。模型性能通过所有问题类型的准确率来衡量,包括选择题和判断题,实验使用VLMEvalKit实现。

(二)综合评估结果
实验结果表明,所有模型在全流程模式(V-L-A)下的准确率最高,在无信息模式(A)下的准确率最低。具体而言,移除视觉或语言模态都会导致性能下降:平均而言,没有视觉输入时准确率下降3.3%,没有语言输入时下降4.1%,两者都没有时下降8.0%。这充分说明最先进的VLM需要视觉和语言的双重指导才能做出最佳决策。
推理模型在复杂场景下通常优于非推理模型,例如o1和o3在V-L-A模式下的准确率超过92%。但在无信息模式下,一些非推理模型的表现与推理模型相当甚至更好。

(三)特定任务评估结果
特定任务评估揭示了模型在不同任务上的性能差异:
动态和静态任务:模型在动态和静态障碍物任务上表现较好,这可能是由于训练数据中此类案例的普遍性和清晰标注。与效率任务相比,模型在障碍物相关任务上的较强表现表明当前模型倾向于采用保守策略,更注重避免碰撞而非优化效率。
导航任务:导航仍然是一个持续的挑战,尽管大多数模型可以对明确的导航指令做出响应,但它们的得分明显较低,表明在准确的车道定位和全面的导航理解方面能力有限。
交通灯任务:多个模型在交通灯任务上的准确率始终较低,凸显了这是一个持续的瓶颈。

(四)稳定性分析
通过对GPT-4.1 mini和Gemini 2.5 Pro在不同信息输入模式下的性能进行三次重复实验,结果显示它们的标准偏差通常低于0.3,表明DriveAction基准能够对自动驾驶模型进行稳定、客观的评估,确保性能测量在重复试验中具有可靠性和可重复性。
DriveAction的意义与价值
DriveAction基准的出现标志着自动驾驶评估领域的一个重要进步。它不仅为学术界提供了一个更全面、更真实的评估工具,有助于推动VLA模型的研究和发展,还为工业界的自动驾驶系统开发提供了有力的支持,能够帮助识别模型的瓶颈,指导系统的优化和改进。通过促进学术界和工业界在更一致的评估标准下开展研究,DriveAction有望加速自动驾驶技术向更安全、更智能的方向发展,为实现真正的自动驾驶奠定坚实的基础。
参考
[1] DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com