详细总结一下这篇文章Impromptu VLA：用于驾驶视觉-语言-动作模型的开放权重与开放数据

最新推荐文章于 2025-12-03 16:56:37 发布

原创最新推荐文章于 2025-12-03 16:56:37 发布 · 365 阅读

CC 4.0 BY-SA版权

文章标签：

121 篇文章

订阅专栏

Impromptu VLA 研究论文详细总结

当前自动驾驶技术在 结构化场景（如城市道路、高速公路，具备清晰车道线和可预测交通流）中已取得显著进展，但在 非结构化场景（如乡村土路、施工区域、标识模糊路段、恶劣天气路面等）中表现不佳，核心瓶颈在于：

现有驾驶数据集多聚焦常规结构化场景，缺乏针对非结构化 “极端场景” 的大规模、精细化标注数据，导致自动驾驶模型难以在这类复杂环境中实现稳健的感知、预测与规划。

文章的核心是提出 Impromptu VLA 体系，包含三大核心贡献：

原始数据基础：从 8 个开源大规模驾驶数据集（Mapillary、ONCE、NAVSIM、nuScenes、Waymo、Argoverse-V2、KITTI、IDD）的200 多万条视频剪辑（原始数据量超 10TB）中筛选；
最终规模：经筛选和验证后，包含约 8 万条高质量标注剪辑，标注数据量共 43.5GB；
数据划分：按 8:2 比例分为训练集与验证集，且在每个场景类别内分层抽样，确保验证集代表性。

数据集围绕以下 4 类非结构化场景构建，覆盖自动驾驶关键 “极端情况”：

场景类别	核心特征与挑战
道路边界模糊	可行驶路径模糊 / 无定义（如乡村土路、标线褪色道路），挑战车道检测与可行驶区域分割；
临时交通规则变更	标准规则因施工、人工指挥、临时标识变更（如施工占道、临时红绿灯），需模型适应非常规指令；
非常规动态障碍物	少见动态主体（如大型工程车、突然穿行的动物、意外位置的行人），需专门交互策略；
复杂路面条件	恶劣路面（坑洼、积雪、结冰）或环境（大雾、暴雨、低光照），影响能见度与车辆动力学控制。

为确保数据质量和标注丰富性，采用 “VLM + 人工验证” 的混合流程：

关键剪辑筛选与稳定性过滤：
- 先将所有数据标准化为 2Hz 帧率，参考 NAVSIM 保留 “过去 1.5 秒 + 未来 5 秒” 片段；
- 采用 “15 秒局部过滤组” 机制：仅保留场景特征在组内持续出现的剪辑，减少假阳性。
VLM 驱动的场景分类与信息提取：
- 使用Qwen2.5-VL 72B 模型，结合 “思维链（CoT）提示”，提取场景背景、静态特征、动态对象，并归类到 4 类非结构化场景中；
多任务标注生成：为每条剪辑生成 7 类标注，均以 “面向规划的问答（Q&A）对” 格式组织（适配 VLM 训练）：
- 场景描述、交通信号检测、弱势道路使用者（VRU）识别、运动意图预测、元动作规划、规划解释、端到端轨迹预测；
全面人工验证：所有标注经人工审核（接受 / 拒绝 / 修正），并在 nuScenes 子集上验证 VLM 分类精度（如 “临时交通规则变更” F1=0.90，“复杂路面条件” F1=0.91），确保标注可靠性。

文章通过闭环、开环、诊断三类实验，验证数据集对 VLM 模型（Qwen2.5-VL 3B/7B）的提升效果：

评估指标：NeuroNCAP 分数（满分 5.0，无碰撞得 5 分，碰撞后按速度线性扣分）、碰撞率（%，越低越好）；
对比方案：
- 基线模型（Base+nuScenes）：仅在 nuScenes 上微调；
- 本文模型（Base+Impromptu+nuScenes）：先在 Impromptu VLA 上微调，再在 nuScenes 上微调；
关键结果：
- 3B 模型 NeuroNCAP 分数从 1.77（基线）提升至 2.15；
- 平均碰撞率从 72.5%（基线）降至 65.5%，其中正面碰撞率从 73.0% 降至 59.0%，安全性能显著提升。

评估指标：轨迹预测 L2 误差（米，越低越好，覆盖 1s/2s/3s 未来 horizon）；
关键结果：
- 3B 模型平均 L2 误差从 0.34（基线）降至 0.30 米，接近当前最优专用方法 EMMA+（0.29 米，依赖更大专有数据集）；
- 7B 模型平均 L2 误差从 0.32（基线）降至 0.30 米，证明数据集对不同规模模型均有效。

通过数据集自带的问答任务，量化模型在 “感知、预测、规划” 三大模块的提升：

能力维度	基线模型（3B）表现	本文模型（3B+Impromptu）表现	提升幅度
感知（VRU 识别）	0.87（准确率）	0.91（准确率）	+4.6%
预测（动态目标）	0.20（准确率）	0.92（准确率）	+360%
规划（元规划）	0.56（准确率）	0.84（准确率）	+50%
轨迹预测（平均 L2 误差）	6.62 米	0.69 米	降低 90% 以上
结果表明，数据集对 “动态目标预测” 和 “轨迹规划” 的提升最显著，精准解决非结构化场景核心痛点。

文章对比了三类相关研究，突出自身差异化：

VLM 与自动驾驶融合：现有研究多将 VLM 作为辅助工具，而本文通过 “非结构化场景专用数据集”，让 VLM 在极端场景中实现感知 - 预测 - 规划端到端提升；
自动驾驶专用数据集：现有数据集或聚焦结构化场景（如 nuScenes）、或依赖合成数据，本文是首个大规模 “真实非结构化场景” 数据集；
端到端自动驾驶基准：本文数据集同时支持闭环（安全评估）与开环（预测精度）测试，且问答标注可作为模型诊断工具，功能更全面。

Impromptu VLA 数据集为非结构化场景自动驾驶研究提供了关键资源，填补现有数据空白；
实验证明，使用该数据集训练的 VLM 模型，在安全性能（NeuroNCAP）和预测精度（nuScenes 轨迹）上均显著超越基线，且能提升感知、预测、规划全链路能力；
数据集的问答标注可作为高效诊断工具，助力定位模型在非结构化场景中的短板。

项目页面：http://Impromptu-VLA.c7w.tech/
代码、数据与模型仓库：https://github.com/ahydchh/Impromptu-VLA
论文发表：39th Conference on Neural Information Processing Systems (NeurIPS 2025)（数据集与基准赛道）