Impromptu VLA 研究论文详细总结 一、研究背景与问题提出 当前自动驾驶技术在 结构化场景(如城市道路、高速公路,具备清晰车道线和可预测交通流)中已取得显著进展,但在 非结构化场景(如乡村土路、施工区域、标识模糊路段、恶劣天气路面等)中表现不佳,核心瓶颈在于: 现有驾驶数据集多聚焦常规结构化场景,缺乏针对非结构化 “极端场景” 的大规模、精细化标注数据,导致自动驾驶模型难以在这类复杂环境中实现稳健的感知、预测与规划。 二、核心贡献 文章的核心是提出 Impromptu VLA 体系,包含三大核心贡献: Impromptu VLA 数据集:首个专门针对非结构化驾驶场景的开源大规模基准数据集,填补现有数据空白;非结构化场景分类体系:定义 4 类关键非结构化场景,为数据筛选和模型训练提供清晰框架;实验验证与诊断工具:通过闭环、开环实验证明数据集有效性,同时其问答标注可作为模型能力诊断工具。 三、Impromptu VLA 数据集核心细节 1. 数据集来源与规模 原始数据基础:从 8 个开源大规模驾驶数据集(Mapillary、ONCE、NAVSIM、nuScenes、Waymo、Argoverse-V2、KITTI、IDD)的200 多万条视频剪辑(原始数据量超 10TB)中筛选;最终规模:经筛选和验证后,包含约 8 万条高质量标注剪辑,标注数据量共 43.5GB;数据划分:按 8:2 比例分为训练集与验证集,且在每个场景类别内分层抽样,确保验证集代表性。 2. 非结构化场景分类体系(4 类核心挑战) 数据集围绕以下 4 类非结构化场景构建,覆盖自动驾驶关键 “极端情况”: 场景类别核心特征与挑战道路边界模糊可行驶路径模糊 / 无定义(如乡村土路、标线褪色道路),挑战车道检测与可行驶区域分割;临时交通规则变更标准规则因施工、人工指挥、临时标识变更(如施工占道、临时红绿灯),需模型适应非常规指令;非常规动态障碍物少见动态主体(如大型工程车、突然穿行的动物、意外位置的行人),需专门交互策略;复杂路面条件恶劣路面(坑洼、积雪、结冰)或环境(大雾、暴雨、低光照),影响能见度与车辆动力学控制。 3. 数据处理与标注流程(4 步核心流程) 为确保数据质量和标注丰富性,采用 “VLM + 人工验证” 的混合流程: 关键剪辑筛选与稳定性过滤: 先将所有数据标准化为 2Hz 帧率,参考 NAVSIM 保留 “过去 1.5 秒 + 未来 5 秒” 片段;采用 “15 秒局部过滤组” 机制:仅保留场景特征在组内持续出现的剪辑,减少假阳性。 VLM 驱动的场景分类与信息提取: 使用Qwen2.5-VL 72B 模型,结合 “思维链(CoT)提示”,提取场景背景、静态特征、动态对象,并归类到 4 类非结构化场景中; 多任务标注生成:为每条剪辑生成 7 类标注,均以 “面向规划的问答(Q&A)对” 格式组织(适配 VLM 训练): 场景描述、交通信号检测、弱势道路使用者(VRU)识别、运动意图预测、元动作规划、规划解释、端到端轨迹预测; 全面人工验证:所有标注经人工审核(接受 / 拒绝 / 修正),并在 nuScenes 子集上验证 VLM 分类精度(如 “临时交通规则变更” F1=0.90,“复杂路面条件” F1=0.91),确保标注可靠性。 四、实验验证与结果(3 类核心实验) 文章通过闭环、开环、诊断三类实验,验证数据集对 VLM 模型(Qwen2.5-VL 3B/7B)的提升效果: 1. 闭环评估:NeuroNCAP 安全基准(模拟真实驾驶场景) 评估指标:NeuroNCAP 分数(满分 5.0,无碰撞得 5 分,碰撞后按速度线性扣分)、碰撞率(%,越低越好);对比方案: 基线模型(Base+nuScenes):仅在 nuScenes 上微调;本文模型(Base+Impromptu+nuScenes):先在 Impromptu VLA 上微调,再在 nuScenes 上微调; 关键结果: 3B 模型 NeuroNCAP 分数从 1.77(基线)提升至 2.15;平均碰撞率从 72.5%(基线)降至 65.5%,其中正面碰撞率从 73.0% 降至 59.0%,安全性能显著提升。 2. 开环评估:nuScenes 轨迹预测(测试预测精度) 评估指标:轨迹预测 L2 误差(米,越低越好,覆盖 1s/2s/3s 未来 horizon);关键结果: 3B 模型平均 L2 误差从 0.34(基线)降至 0.30 米,接近当前最优专用方法 EMMA+(0.29 米,依赖更大专有数据集);7B 模型平均 L2 误差从 0.32(基线)降至 0.30 米,证明数据集对不同规模模型均有效。 3. 诊断评估:Impromptu VLA 问答验证集(定位能力提升) 通过数据集自带的问答任务,量化模型在 “感知、预测、规划” 三大模块的提升: 能力维度基线模型(3B)表现本文模型(3B+Impromptu)表现提升幅度感知(VRU 识别)0.87(准确率)0.91(准确率)+4.6%预测(动态目标)0.20(准确率)0.92(准确率)+360%规划(元规划)0.56(准确率)0.84(准确率)+50%轨迹预测(平均 L2 误差)6.62 米0.69 米降低 90% 以上结果表明,数据集对 “动态目标预测” 和 “轨迹规划” 的提升最显著,精准解决非结构化场景核心痛点。 五、相关工作与差异化 文章对比了三类相关研究,突出自身差异化: VLM 与自动驾驶融合:现有研究多将 VLM 作为辅助工具,而本文通过 “非结构化场景专用数据集”,让 VLM 在极端场景中实现感知 - 预测 - 规划端到端提升;自动驾驶专用数据集:现有数据集或聚焦结构化场景(如 nuScenes)、或依赖合成数据,本文是首个大规模 “真实非结构化场景” 数据集;端到端自动驾驶基准:本文数据集同时支持闭环(安全评估)与开环(预测精度)测试,且问答标注可作为模型诊断工具,功能更全面。 六、结论与局限性 1. 结论 Impromptu VLA 数据集为非结构化场景自动驾驶研究提供了关键资源,填补现有数据空白;实验证明,使用该数据集训练的 VLM 模型,在安全性能(NeuroNCAP)和预测精度(nuScenes 轨迹)上均显著超越基线,且能提升感知、预测、规划全链路能力;数据集的问答标注可作为高效诊断工具,助力定位模型在非结构化场景中的短板。 2. 局限性 标注生成主要依赖 Qwen2.5-VL 模型,可能引入模型特定偏差;虽经人工验证,但未完全覆盖所有潜在误差,未来可进一步优化标注多样性。 七、核心开源资源 项目页面:http://Impromptu-VLA.c7w.tech/代码、数据与模型仓库:https://github.com/ahydchh/Impromptu-VLA论文发表:39th Conference on Neural Information Processing Systems (NeurIPS 2025)(数据集与基准赛道)