点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享清华&博世最新的工作!Impromptu VLA:清华博世带来完全开源性能SOTA的纯血VLA!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>点击进入→自动驾驶之心『VLA』技术交流群
论文作者 | Haohan Chi等
编辑 | 自动驾驶之心
导读
当前自动驾驶系统在城市和高速公路等结构化环境中取得了显著进展,但面对乡村小路、临时施工区、非标准交通规则以及恶劣路况等“非结构化场景”时,其鲁棒性和安全性仍面临严峻挑战。现有大规模自动驾驶数据集主要侧重于常规交通状况 ,导致在这些复杂多变的非结构化环境中缺乏专门的、大规模且精细标注的数据。为了弥补这一关键空白,清华AIR联合博世中央研究院 提出并构建了 Impromptu VLA 框架,旨在提供一个开放权重和开放数据的驾驶视觉-语言-动作模型。Impromptu VLA 是一个完全端到端、无中间感知表征的“纯血VLA”系统,其从驾驶视频片段中直接提取多模态特征,并生成自然语言格式的驾驶命令,无需手工设计感知模块、行为先验或中间BEV表达。在NeuroNCAP闭环安全评测体系中,Impromptu VLA 展现出强大的决策稳健性与泛化能力,显著超越 CVPR 2025 最新提出的 BridgeAD 系统(2.15 v.s. 1.60)。
❝论文链接: https://arxiv.org/abs/2505.23757
代码仓库 (Github): https://github.com/ahydchh/Impromptu-VLA
项目主页: http://impromptu-vla.c7w.tech/
数据集 (Hugging Face): https://huggingface.co/datasets/aaaaaap/unstructed


研究背景
自动驾驶技术取得了显著进步,尤其是在城市和高速公路等结构化环境中,具备清晰的车道标记和可预测的交通流,其导航能力已日益成熟。然而,要实现“无处不在”的自动驾驶终极愿景,我们必须超越这些常规场景,深入探索复杂且往往难以预测的非结构化道路环境。这些非结构化场景涵盖了从乡村土路、动态施工区域到标志模糊地带,甚至是经历过自然事件恢复的区域,它们共同构成了自动驾驶系统亟待攻克的下一个重大前沿。目前,现有的自动驾驶系统在这些复杂场景中经常遭遇严峻考验,因此,要充分发挥“随处可达”的自动驾驶潜力,就必须在这些领域取得突破。
然而,成功应对这一前沿挑战受到专业数据严重稀缺的极大阻碍。尽管许多现有驾驶数据集为自动驾驶的当前进展奠定了基础,但它们主要侧重于捕获常见的、结构化的交通状况。这导致在处理非结构化环境的巨大多样性和独特挑战方面存在显著的“盲点”,例如道路边界不清晰、出现非常规动态障碍物、临时交通规则变化或恶劣路面条件等。如果没有大规模、精心标注且专门反映这些复杂条件的数据集,自动驾驶系统训练的有效性将受到严重限制,也难以严格评估其在此类场景中的适应性。
为解决这一数据稀缺问题,研究团队引入了 Impromptu VLA 数据集。该数据集包含约80,000个经过精心挑选和标注的视频片段,这些片段从八个公开来源的200多万个原始片段中提取而来,重点关注四类挑战性非结构化场景:边界不清晰的道路、临时交通规则变化、非常规动态障碍物和挑战性道路条件。
我们的主要贡献包括:
Impromptu VLA 数据集: 一个公开可用、大规模、标注丰富的数据集,专门用于解决非结构化驾驶场景中的数据空白。
系统分类和数据整理管道:我们提出了一种新颖的四类非结构化场景分类法,以及可扩展的、以 VLM 为中心的数据管理流程,用于识别、分类和全面注释,并具有适用于训练高级 VLM 的多任务问答功能。
显著的性能提升: 大量实验证据表明,使用 Impromptu VLA 数据集进行训练可显著提升标准驾驶基准测试的结果,并可作为评估和改进非结构化环境中 VLM 能力的有效诊断工具。
方法
为了解决自动驾驶在非结构化场景中数据匮乏的关键问题,研究团队设计并实现了一套先进的数据处理和标注流程,通过以下几个关键步骤,从海量原始数据中提取并丰富出高质量的非结构化驾驶场景:
2.1 Impromptu VLA 数据集概述
当前研究社区缺乏足够大规模、多样化且精细标注的、专门针对非结构化场景的数据集。Impromptu VLA 数据集旨在弥补这一关键空白,推动自动驾驶在非结构化道路上的发展。该数据集最初从8个主要公共数据集(总计超过200万个视频片段,占用超过10TB存储空间)中聚合而来。经过精密的筛选机制,Impromptu VLA 被提炼成一个高度集中的约80,000个片段的集合。这些片段专门捕获了多样化的挑战性场景,包括边界不清晰的道路、存在非常规动态障碍物以及具有临时或非标准交通规则的路段。

2.2 定义非结构化驾驶场景分类体系
创建 Impromptu VLA 数据集的一个主要目标是超越对“非结构化”的笼统模糊看法,建立对这些环境所呈现具体挑战的更细致理解。为了实现这一目标,并将数据集聚焦于真正考验当前自动驾驶系统极限的场景,研究团队初步开展了一项数据驱动的过程,定义了一个简洁而全面的非结构化道路场景分类体系。
该分类体系的定义方法始于对收集到的数据进行广泛、无偏见的探索。首先,研究团队通过从聚合和标准化后的多源数据集中以固定间隔采样约10%的片段,创建了一个具有代表性的子集。随后,利用强大的视觉-语言模型 Qwen2.5-VL 72B 的能力,对该子集进行开放式描述性分析。
接下来的阶段是一个多阶段、高度自动化的过程,旨在将这些描述提炼成有意义的非结构化挑战类别。首先,为了以编程方式识别并过滤掉常规驾驶场景,研究团队采用了另一个基于 VLM 的分类步骤。Qwen2.5-VL 生成的每一个初始的、丰富的场景描述都使用精心设计的提示(prompt)进行评估,该提示指示 VLM 扮演场景分类器的角色,判断该描述是否属于非常规情况。为了确保这种基于 VLM 的过滤提示的可靠性和有效性,研究团队进行了一个迭代优化过程。该过程在一个包含约1000个场景描述的验证子集上进行了测试,这些描述也由两名人工标注员独立地手动标注为“常规”或“非常规”。VLM 的分类结果与人工共识进行比较,并迭代调整提示,直到达到高度一致。
对于从完整数据集中选出的非常规场景,研究团队进行了语义级分析,以识别重复出现的模式,并将语义相似的非结构化场景进行分组。这种聚类方法促成了潜在子类别的自下而上涌现,例如涉及“不清晰的道路边缘”、“临时道路施工”、“道路上的动物”或“由于下雪导致能见度差”等。通过对这些机器生成的簇进行迭代细化、整合以及基于这些组中识别出的主要驾驶复杂性来源进行抽象,研究团队最终确定了以下四个突出的高层类别 :
道路边界不清晰(Roads with unclear boundaries): 路径模糊或未定义的场景,例如乡村土路、越野小径或标记褪色/缺失的道路。这些场景严重挑战了车道检测和可驾驶区域分割等感知任务。
临时交通规则变化(Temporary traffic rule changes): 标准交通规则因施工区、人工交通指挥员或临时标志而暂时改变的动态情况,要求自动驾驶车辆适应非寻常的指令和道路布局。
非常规动态障碍物(Unconventional dynamic obstacles): 在典型城市驾驶中不常见的动态物体或障碍物,需要专门的交互策略。例如,大型或不规则行驶的车辆、出现在意外位置的弱势道路使用者,或者遭遇动物,所有这些都构成了突发危险。
挑战性路况(Challenging road conditions): 包括恶劣路面(如坑洼、泥土、雪、冰)或环境条件(如雾、大雨、弱光、眩光)严重影响能见度或车辆行驶的场景,使危险感知和安全导航复杂化。
2.3 数据处理和标注

关键片段选择和稳定性过滤(Keyclip Selection and Stability Filtering): 所有收集到的序列首先被标准化为统一的 2Hz 时间速率,解决了来自不同来源的不一致性。研究团队将片段配置与 NAVSIM 对齐,保留过去1.5秒和未来5秒的数据,并从每个包中选择中心关键片段进行标注。
通过 CoT 提示进行场景分类和结构化信息提取(Scene Classification and Structured Information Extraction via CoT prompting): 选定的关键片段使用 Qwen2.5-VL 72B 和思维链(CoT)提示进行分类,以提取超越简单描述的丰富结构化信息。这种层次推理过程分析了整体场景描述、静态道路特征、可移动物体,并最终分配到四个非结构化场景类别之一。
多任务标注生成(Multi-Task Annotation Generation): 利用场景类别和在 CoT 过程中提取的结构化信息,研究团队进一步丰富了每个关键片段,提供了多样化的任务特定标注,这得益于 Senna 等综合标注框架的启发。这种多任务标注是通过规则和LLM结合的方法实现的。具体来说,研究团队为每个选定的关键片段生成了以下标注:
场景描述(Scene Description): 通过对 VLM 进行有针对性的查询,生成捕获整体环境上下文、时间、天气和交通状况的全面描述。
交通信号检测(Traffic Signal Detection): 通过进一步的 VLM 查询,识别活动交通信号的存在状态和类型。
弱势道路使用者(VRU)识别(Vulnerable Road User (VRU) Identification): 关于 VRU 的信息,包括其存在、类型(例如,行人、骑自行车者)以及与自车距离,均从真实数据中获取。
运动意图预测(Motion Intention Prediction): 为了捕获动态方面,场景中关键参与者的预测运动意图由 VLM 生成。
元动作规划(Meta-action Planning): 为自车制定高层计划(例如,加速-左转、保持直行),通常通过基于场景上下文的 VLM 提示来实现。
规划解释(Planning Explanation): 由 VLM 生成文本解释,合理化自车在场景中潜在或实际的机动行为。
端到端轨迹预测(End-to-End Trajectory Prediction): 通过在真实数据中构建过去车辆状态和相应的未来目标轨迹来策划支持此任务的数据。
全面人工验证(Comprehensive Human Verification): 所有生成的标注——无论是主要的非结构化场景类别还是后续的多任务标签——都经过了细致的人工验证过程。标注员审查每个关键片段及其相关标签,提供二元判断(接受/拒绝)或在必要时进行小的修正来确保整个数据集的高保真度。为了在进行广泛人工审查之前定量评估 VLM 在我们定义的非结构化类别上的场景分类性能,研究团队在从 nuScenes 数据集中间隔采样的200张图像子集上进行了评估。将 VLM 分类结果与专家手动标签进行比较,结果显示几个类别获得了较高的F1分数:“临时交通规则变化”为0.90 ,“非常规动态障碍物”为0.81 ,“挑战性路况”为0.91。由于“道路边界不清晰”类别在 nuScenes 子集中过于稀有,因此无法进行有意义的F1分数计算。这些验证结果为我们标注流水线中基于 VLM 的阶段提供了信心。
2.4 数据集统计(Dataset Statistics)
最终的 Impromptu VLA 数据集包含大量经过标注的片段,这些片段专门针对其非结构化道路特性进行了策划。图 3 展示了从每个源数据集中提取的这些片段的总数,这些片段在四种非结构化场景类别(第2.2节中介绍)中的整体分布,Impromptu VLA数据集和原始数据集的轨迹分布情况比较,以及数据集中来自不同源数据集的不同类别的场景。

为了最大限度地提高该数据集在训练和评估感知和规划模型方面的效用,为每个片段生成的丰富多任务标注(如第2.3节所详述)被结构化为面向规划的问答(Q&A)对。这种格式,灵感来自 DriveVLM 或 EMMA 等框架,将视觉输入、文本输出和动作轨迹预测直接关联到 LLMs 的序列空间中。为了标准化评估,整个数据集的策划片段,跨越所有四种非结构化类别,研究团队将数据按照80:20的比例划分为训练集和验证集。这种分层在每个类别内进行,以确保验证集保留了所有定义的非结构化道路挑战的代表性分布。
实验
本节通过实证验证 Impromptu VLA 数据集对推动自动驾驶模型发展的影响。我们旨在回答以下问题:
用我们的数据集进行训练是否能改善视觉-语言模型 (VLM) 在现有基准测试(包括闭环和开环)上的性能?
Impromptu VLA 数据集在哪些具体方面(感知、预测或规划)增强了 VLM 性能?我们的验证集及其详细的面向规划的问答 (Q&A) 如何有效地作为诊断基准,以查明这些贡献并评估模型在这些不同任务中的能力?
3.1 推动现有端到端自动驾驶基准的边界
闭环评估。我们选择 NeuroNCAP ,这是一个全面的闭环评估框架,它利用 nuScenes 数据集来模拟各种挑战性的真实世界驾驶场景,从而评估自动驾驶车辆在不同条件下的规划和控制系统在安全性和效率方面的表现。NeuroNCAP 评估主要通过碰撞率和 NeuroNCAP 分数 (NNS) 来量化性能。NNS 的计算方式类似于5星评级系统:如果未发生碰撞,则得分为5.0分 ;否则,得分计算为 ,其中 vi 是实际碰撞速度(自车与碰撞物体之间相对速度的大小),vr 是在未执行规避动作时会发生的参考碰撞速度。这意味着如果未避免碰撞,随着碰撞速度 vi 接近或超过参考速度 vr,分数会从潜在的4分线性下降到0分。另一方面,碰撞率直接跟踪导致碰撞的场景百分比。这两个指标根据交互类型(例如,正面、侧面)进行分类。
我们的方法涉及对两种不同训练流水线进行的比较研究。这里的基础模型是 Qwen2.5VL 3B。第一种流水线,我们在 表 1 中称之为 “Base+Impromptu+nuScenes”,包括首先在 Impromptu VLA 数据集的训练集上对基础 VLM 进行微调,然后在此基础上进一步在 nuScenes 训练集上对该适应模型进行微调。第二种流水线,“Base+nuScenes”,直接在 nuScenes 训练集上对基础 VLM 进行微调,而无需接触 Impromptu VLA。然后,这两个模型都在 NeuroNCAP 基准上进行评估。结果显示,使用Impromptu数据集之后的NNS有显著提升,碰撞率也有明显下降。

开环评估。除了闭环仿真,我们还进行开环评估,以专门评估 Impromptu VLA 对 VLM 轨迹预测准确性的提升。为此,我们同样使用 nuScenes 数据集 ,重点关注端到端轨迹预测任务。性能主要通过预测轨迹与真实轨迹在未来1秒、2秒和3秒时间范围内的L2距离(单位:米)以及平均L2误差来衡量。实验方法与闭环测试中使用的比较方法相同。我们比较了 Qwen2.5VL 3B 和 7B VLM 的两种主要训练策略:(1) “Base+nuScenes”,其中基础 VLM 直接在 nuScenes 数据集上进行微调 ;(2) “Base+Impromptu+nuScenes”,其中基础 VLM 首先在我们的 Impromptu VLA 上进行微调,然后在此基础上进一步在 nuScenes 上对该适应模型进行微调。这种比较旨在分离出在我们的数据集上进行预训练对在不同场景中进行轨迹预测任务所带来的益处。结果与几种最先进的方法进行比较,详见 表 3。

nuScenes 基准上的开环轨迹预测结果表明,当模型在 Impromptu VLA 数据集上进行预训练时,性能显著提高。在1秒、2秒和3秒预测时间范围内,轨迹预测准确性的提升始终如一。令人印象深刻的是,这种增强使我们适应后的 3B/7B 模型性能达到了与 EMMA+ 等领先方法(平均L2误差为0.29米)具有竞争力的水平 ,尽管 EMMA+ 受益于 Waymo 引入的包含数百万个场景的更大规模内部数据集的训练。这凸显了 Impromptu VLA 数据集(80K片段)在显著提升轨迹预测能力方面的有效性。
3.2 对 Impromptu VLA 上 VLM 能力的诊断性评估
为了回答第二个问题——探究 Impromptu VLA 数据集在自动驾驶的哪些具体方面(感知、预测或规划)得到了增强,以及我们的验证集如何作为诊断基准——我们使用其面向规划的问答任务进行了一系列评估。这包括比较基础视觉-语言模型 (VLM) 与在我们数据集上进行任务导向微调的版本之间的性能。

Impromptu VLA 验证集上的定量评估结果(总结在 表 4 中)清楚地表明,在我们数据集上进行微调可以显著提升自动驾驶的所有关键方面,包括感知、预测、规划推理和规划轨迹。
结论与展望
该项工作提出了 Impromptu VLA 数据集,这是一个精心策划的基准,包含大约80,000个视频片段,这些片段具有丰富的多任务问答标注和相应的动作轨迹,专门设计用于解决自动驾驶在非结构化环境中面临的关键数据稀缺问题。我们的全面实验表明,使用 Impromptu VLA 数据集训练的视觉-语言模型取得了显著的性能提升,这体现在 NeuroNCAP 基准上闭环安全性与驾驶分数的提高,以及 nuScenes 上开环轨迹预测准确性的改善。此外,对我们数据集验证套件的评估证实了其作为诊断工具的有效性,揭示了模型在处理多样化和挑战性非结构化道路场景时,在感知、预测和规划能力方面的具体进展。因此,Impromptu VLA 数据集提供了一个宝贵的新资源,以促进开发更鲁棒、适应性更强和能力更强的自动驾驶系统,为应对现实世界的复杂性做好准备。
局限性。我们承认 Impromptu VLA 数据集主要依赖 Qwen2.5-VL 进行标注生成,这可能引入潜在的模型特定偏差。然而,我们相信全面的人工验证以及在增强非结构化场景中视觉-语言模型性能方面所展现的效用,证实了其作为研究资源的重大价值。
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com