DriveAction: 面向VLA模型的人类化驾驶决策基准

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享理想团队最新的工作!DriveAction: 面向VLA模型的人类化驾驶决策基准!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『VLA』技术交流群

论文作者 | Yuhan Hao等

编辑 | 自动驾驶之心

背景与挑战

当前自动驾驶领域的Vision-Language-Action (VLA) 模型虽取得进展,但现有评测基准存在三大局限:

  1. 场景多样性不足:依赖开源数据集(如nuScenes、Waymo),覆盖场景单一,关键场景(匝道汇入、施工区、行人交互)代表性弱。

  2. 动作标注可靠性低:多数基准缺失动作级标注,或依赖人工事后标注,无法真实反映实时驾驶意图。

  3. 评估逻辑偏离人类决策:主流评估采用前向链式逻辑(感知→预测→规划→动作),未建立以目标动作为核心的依赖关系。

核心创新

1. 用户贡献的广覆盖驾驶场景

  • 数据来源:量产自动驾驶车辆用户主动采集的真实驾驶数据,覆盖中国148个城市(Table 1对比)。

  • 场景分类:7大类场景(Table 2),包括:

    • 匝道汇入/分离(On/Off Ramp)

    • 效率导向变道(Efficiency Lane Change)

    • 弱势道路使用者避让(Bypass VRU)

    • 复杂路口转向(Intersection)等

  • 数据规模:2,610个驾驶场景生成16,185个QA对。

2. 人类驾驶偏好对齐的真值标注

  • 标注方式:直接记录用户实时操作(如方向盘转角、踏板深度),离散化为高层动作标签。

  • 质量保障:人工验证排除错误/不合理/非法行为(如误加速、无故急刹、压实线)。

  • 设计优势:匹配端到端大模型输出粒度,体现人类决策的离散性特征(对比Table 1的Label列)。

3. 动作驱动的树状评估框架

  • 框架设计(figure 1):

  • 根节点:动作空间(如变道、路口转向)

  • 中间层:语言任务(如导航跟随、交通灯理解)

  • 叶节点:视觉任务(如车道线检测、标志识别)

  • 场景信息注入

    • 连续3帧视觉输入(支持时序推理)

    • 车载导航指令(提供路径规划目标)

    • 自车/目标车速(量化驾驶状态)

  • 灵活评估模式(Table 3):

关键实验结果

多模态必要性验证

  • 双模态依赖性:移除视觉输入平均精度下降3.3%,移除语言输入下降4.1%,同时移除下降8.0%(Table 3)。

  • 典型案例:缺失导航信息时,模型在匝道前错误选择直行而非变道(figure 4)。

任务特异性表现

  • 导航任务瓶颈:模型在车道定位(Navigation Position)任务准确率仅66.8-71.3%(Table 4)。

  • 交通灯识别挑战:部分模型在Traffic Light Detection任务准确率低至40.3%(Table 5)。

  • 效率决策保守性:面对慢车阻挡时,模型倾向保持车道而非高效变道(附录Table 13案例)。

模型稳定性

  • 最佳稳定性:GPT-4.1 mini和Gemini 2.5 Pro在重复实验中标准差<0.3(Table 6)。

  • 推理模型优势:在V-L-A模式下,o1模型精度达93.56%(Table 3),但该优势在信息缺失时减弱。

未来展望

  1. 驾驶风格个性化:分析模型决策偏好(保守型/主动型),为用户推荐适配模型。

  2. 长尾场景扩展:增强极端天气、夜间低光照等场景覆盖。

  3. 多模态依赖解耦:深入探究视觉/语言信号在复杂决策中的权重分配机制。

  4. 实时性优化:树状框架的动态任务组合机制可进一步压缩推理延迟。

核心价值:DriveAction通过动作驱动的评估范式,为VLA模型提供了紧贴人类驾驶逻辑的评测标尺。其树状框架设计(figure 1)和场景信息注入机制(如连续帧+导航指令)为自动驾驶的可解释性研究开辟了新路径。

参考

[1] DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

内容概要:本文围绕EKF SLAM(扩展卡尔曼滤波同步定位与地图构建)的性能展开多项对比实验研究,重点分析在稀疏与稠密landmark环境下、预测与更新步骤同时进行与非同时进行的情况下的系统性能差异,并进一步探讨EKF SLAM在有色噪声干扰下的鲁棒性表现。实验考虑了不确定性因素的影响,旨在评估不同条件下算法的定位精度与地图构建质量,为实际应用中EKF SLAM的优提供依据。文档还提及多智能体系统在遭受DoS攻击下的弹性控制研究,但核心内容聚焦于SLAM算法的性能测试与分析。; 适合人群:具备一定机器人学、状态估计或自动驾驶基础知识的科研人员及工程技术人员,尤其是从事SLAM算法研究或应用开发的硕士、博士研究生和相关领域研发人员。; 使用场景及目标:①用于比较EKF SLAM在不同landmark密度下的性能表现;②分析预测与更新机制同步与否对滤波器稳定性与精度的影响;③评估系统在有色噪声等非理想观测条件下的适应能力,提升实际部署中的可靠性。; 阅读建议:建议结合MATLAB仿真代码进行实验复现,重点关注状态协方差传播、观测更新频率与噪声模型设置等关键环节,深入理解EKF SLAM在复杂环境下的行为特性。稀疏 landmark 与稠密 landmark 下 EKF SLAM 性能对比实验,预测更新同时进行与非同时进行对比 EKF SLAM 性能对比实验,EKF SLAM 在有色噪声下性能实验
内容概要:本文围绕“基于主从博弈的售电商多元零售套餐设计与多级市场购电策略”展开,结合Matlab代码实现,提出了一种适用于电力市场环境下的售电商优决策模型。该模型采用主从博弈(Stackelberg Game)理论构建售电商与用户之间的互动关系,售电商作为领导者制定电价套餐策略,用户作为跟随者响应电价并调整用电行为。同时,模型综合考虑售电商在多级电力市场(如日前市场、实时市场)中的【顶级EI复现】基于主从博弈的售电商多元零售套餐设计与多级市场购电策略(Matlab代码实现)购电组合优,兼顾成本最小与收益最大,并引入不确定性因素(如负荷波动、可再生能源出力变)进行鲁棒或随机优处理。文中提供了完整的Matlab仿真代码,涵盖博弈建模、优求解(可能结合YALMIP+CPLEX/Gurobi等工具)、结果可视等环节,具有较强的可复现性和工程应用价值。; 适合人群:具备一定电力系统基础知识、博弈论初步认知和Matlab编程能力的研究生、科研人员及电力市场从业人员,尤其适合从事电力市场运营、需求响应、售电策略研究的相关人员。; 使用场景及目标:① 掌握主从博弈在电力市场中的建模方法;② 学习售电商如何设计差异零售套餐以引导用户用电行为;③ 实现多级市场购电成本与风险的协同优;④ 借助Matlab代码快速复现顶级EI期刊论文成果,支撑科研项目或实际系统开发。; 阅读建议:建议读者结合提供的网盘资源下载完整代码与案例数据,按照文档目录顺序逐步学习,重点关注博弈模型的数学表达与Matlab实现逻辑,同时尝试对目标函数或约束条件进行扩展改进,以深理解并提升科研创新能力。
内容概要:本文介绍了基于粒子群优算法(PSO)的p-Hub选址优问基于粒子群优算法的p-Hub选址优(Matlab代码实现)题的Matlab代码实现,旨在解决物流与交通网络中枢纽节点的最优选址问题。通过构建数学模型,结合粒子群算法的全局寻优能力,优枢纽位置及分配策略,提升网络传输效率并降低运营成本。文中详细阐述了算法的设计思路、实现步骤以及关键参数设置,并提供了完整的Matlab仿真代码,便于读者复现和进一步改进。该方法适用于复杂的组合优问题,尤其在大规模网络选址中展现出良好的收敛性和实用性。; 适合人群:具备一定Matlab编程基础,从事物流优、智能算法研究或交通运输系统设计的研究生、科研人员及工程技术人员;熟悉优算法基本原理并对实际应用场景感兴趣的从业者。; 使用场景及目标:①应用于物流中心、航空枢纽、快递分拣中心等p-Hub选址问题;②帮助理解粒子群算法在离散优问题中的编码与迭代机制;③为复杂网络优提供可扩展的算法框架,支持进一步融合约束条件或改进算法性能。; 阅读建议:建议读者结合文中提供的Matlab代码逐段调试运行,理解算法流程与模型构建逻辑,重点关注粒子编码方式、适应度函数设计及约束处理策略。可尝试替换数据集或引入其他智能算法进行对比实验,以深对优效果和算法差异的理解。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值