点击下方卡片,关注“自动驾驶之心”公众号
写在前面
自UniAD(CVPR 2023 Best Paper)问世以来,端到端已经成为当下量产的主流范式。而从去年下半年开始,尤其是DeepSeek思维链流行以来,视觉-语言-动作(VLA)相关方法伴随着具身智能的爆火,相关论文已经横扫自动驾驶前沿领域。同时各家主机厂也争先恐后尝试落地研发,理想、文远知行、小米、小鹏等等都在大力尝试量产。
随着2025年即将过半,学术界和工业界也出现了很多优秀的工作。
所以哪些高质量工作现在应该格外关注?趋势在往什么方向发展?量产应用究竟如何?全都是值得每一位前沿从业者思考~
为此,自动驾驶之心采访了学术界和工业界第一线的大佬并做了VLA相关工作的汇总,文章按照发表时间排序,其中不乏全球顶尖高校团队和工业界研究团队的工作。并在文末做了一些对当下工作的观点整理,感兴趣的小伙伴不要错过呦~
标题:AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning
链接:https://arxiv.org/abs/2506.13757v1
主页:https://autovla.github.io/
单位:UCLA
摘要:视觉语言行动(VLA)模型的最新进展表明,通过利用世界知识和推理能力,端到端自动驾驶有望实现。然而,当前的VLA模型往往难以处理物理上不可行的动作输出、复杂的模型结构或不必要的冗长推理。在本文中,我们提出了AutoVLA,这是一种新的VLA模型,它将推理和动作生成统一在一个用于端到端自动驾驶的自回归生成模型中。AutoVLA直接从原始视觉输入和语言指令中执行语义推理和轨迹规划。我们将连续的轨迹标记为离散的、可行的动作,从而能够直接集成到语言模型中。对于训练,我们采用监督微调来为模型配备双重思维模式:快速思维(仅轨迹)和慢速思维(通过思维链推理增强)。为了进一步提高规划性能和效率,我们引入了一种基于组相对策略优化(GRPO)的强化微调方法,减少了简单场景中不必要的推理。在真实世界和模拟数据集和基准测试中进行的广泛实验,包括nuPlan、nuScenes、Waymo和CARLA,证明了AutoVLA在开环和闭环中的竞争性能。定性结果展示了AutoVLA在不同场景下的自适应推理和准确规划能力。

主要贡献如下:
本文提出了AutoVLA,一个端到端的自动驾驶框架,利用与物理动作令牌集成的预训练VLM主干,实现了从原始视觉观察和语言指令中直接进行策略学习和语义推理;
提出了一种基于强化学习的后训练方法,该方法使用GRPO来实现自适应推理,并进一步提高模型在端到端驾驶任务中的性能;
证明了AutoVLA在多个自动驾驶基准测试中取得了卓越的性能,包括开环和闭环测试。
实验结果:

标题:ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving
链接:https://arxiv.org/abs/2506.08052
代码:https://github.com/xiaomi-research/recogdrive
单位:华科、小米
摘要:尽管端到端自动驾驶取得了显著进展,但在罕见和长尾的情况下,其性能会显著下降。最近的方法试图通过利用视觉语言模型(VLM)的丰富知识来应对这一挑战,但这些方法存在几个局限性:(1)VLM的预训练数据和现实世界驾驶数据之间存在显著的领域差距,(2)离散语言空间和连续动作空间之间的维度不匹配,以及(3)模仿学习倾向于捕捉数据集中存在的平均行为,这可能是次优甚至危险的。本文中,我们提出了ReCogDrive,这是一种将VLM与扩散规划器集成在一起的自动驾驶系统,采用三阶段范式进行训练。在第一阶段,我们使用大规模的驾驶问答数据集来训练VLM,减轻通用内容和现实驾驶场景之间的领域差异。在第二阶段,我们采用基于扩散的规划器进行模仿学习,将潜在语言空间的表示映射到连续的驱动动作。最后,我们使用NAVSIM非反应模拟器的强化学习对扩散规划器进行微调,使模型能够生成更安全、更人性化的驾驶轨迹。我们在以规划为导向的NAVSIM基准上评估了我们的方法,实现了89.6的PDMS,并设定了一个新的最先进的水平,比之前的SOTA高出5.6 PDMS。

主要贡献如下:
从三个方面提出了配备驾驶认知的端到端自动驾驶系统ReCogDrive:(1)VLM中的固有世界认知,(2)基于构建的高质量驾驶数据的驾驶领域认知,以及(3)通过强化学习进行多轨迹探索的广义认知。
提出了一个三阶段训练框架。首先,VLM在大规模驾驶问答数据集上进行了微调,以适应驾驶场景。接下来,通过行为克隆训练扩散模型以生成高保真轨迹。最后,提出了仿真环境辅助强化学习来生成更安全、更稳定的轨迹。
在NAVSIM基准上进行了广泛的实验。我们的方法达到了最先进的PDMS评分89.6,突出了其有效性和现实可行性。
实验结果:

标题:Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models
链接:https://arxiv.org/abs/2505.23757
项目主页:https://github.com/ahydchh/Impromptu-VLA
单位:清华AIR、博世
摘要:自动驾驶的视觉语言行动(VLA)模型显示出希望,但在非结构化的极端情况下却步履蹒跚,这主要是由于缺乏有针对性的基准。为了解决这个问题,我们引入了Impromptu VLA。我们的核心贡献是Impromptu VLA数据集:从8个开源大规模数据集中提取的200多万个源片段中提炼出80000多个精心策划的视频片段。该数据集基于我们对四个具有挑战性的非结构化类别的新颖分类,并具有丰富的、面向计划的问答注释和动作轨迹。至关重要的是,实验表明,用我们的数据集训练的VLA在既定的基准上实现了显著的性能提升——提高了闭环NeuroNCAP评分和碰撞率,并在开环nuScenes轨迹预测中达到了接近最先进的L2精度。此外,我们的问答套件可作为一种有效的诊断工具,揭示了VLM在感知、预测和规划方面的明显改善。

主要贡献如下:
Impromptu VLA数据集:一个公开的、大规模的、注释丰富的资源,精心关注各种具有挑战性的非结构化驾驶场景,旨在填补现有数据资源中的关键空白;
非结构化道路状况的系统分类,以及可扩展的、以VLM为中心的数据管理管道,用于识别、分类和全面注释,并带有适合培训高级VLM的多任务问答;
大量的实验证据表明,使用Impromptu VLA数据集进行训练可以显著提高标准驾驶基准的结果,并作为评估和提高非结构环境中VLM能力的有效诊断工具;
实验结果:

标题:DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving
链接:https://arxiv.org/abs/2505.19381
单位:博世、清华AIR
摘要:端到端自动驾驶的研究兴趣激增,因为其完全可差异化的设计集成了模块化任务,即感知、预测和规划,这使得在追求最终目标的过程中能够进行优化。尽管端到端范式具有巨大的潜力,但现有方法存在几个方面的问题,包括昂贵的BEV(鸟瞰图)计算、动作多样性和复杂现实场景中的次优决策。为了应对这些挑战,我们提出了一种新的混合稀疏密集扩散策略,该策略由视觉语言模型(VLM)授权,称为Diff-VLA。我们探索了高效多模态驾驶行为的稀疏扩散表示。此外,我们重新思考了VLM驾驶决策的有效性,并通过跨代理、地图实例和VLM输出的深度交互来改进轨迹生成制导。我们的方法在《2025年自主大挑战》中表现出了卓越的性能,该挑战包含具有挑战性的真实和反应性的合成场景。我们的方法实现了45.0 PDMS。

主要贡献如下:
VLA引导模块:该模块以多视图图像为输入,输出轨迹和高级驾驶命令。然后,这些命令与外部驾驶命令(例如导航指令)相结合,作为基于扩散的规划模块的输入。
混合感知模块:我们的混合感知模型有两个分支,用于不同的感知任务。密集感知分支构建了一个密集的鸟瞰图(BEV)特征表示,该特征表示作为主要输入被输入到规划模块中。为了提高规划者对障碍物和道路结构的理解,稀疏感知分支在实例级别提取信息(例如,检测到的障碍物、车道边界、中心线、停车线等),并将其传播到规划模块。
基于扩散的规划模块:我们使用截断扩散策略,该策略利用多模态锚点作为先验,并采用缩短的扩散时间表。为了进一步提高扩散模型的性能,我们提出了一种分层信息编码策略来整合异构输入。
实验结果:

标题:DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving
链接:https://arxiv.org/abs/2505.16278
主页:https://thinklab-sjtu.github.io/DriveMoE/
单位:上海交通大学
摘要:端到端自动驾驶(E2E-AD)需要有效处理多视图传感数据,并对各种复杂的驾驶场景进行稳健处理,特别是激进转弯等罕见的机动。大型语言模型(LLM)中混合专家(MoE)架构的最新成功表明,参数的专门化能够实现强大的可扩展性。在这项工作中,我们提出了DriveMoE,这是一种基于MoE的新型E2E-AD框架,具有场景专用视觉MoE和技能专用动作MoE。DriveMoE建立在我们的π0视觉语言动作(VLA)基线(最初来自嵌入式AI领域)之上,称为Drive-π0。具体来说,我们通过训练路由器根据驾驶环境动态选择相关摄像头,将Vision MoE添加到Drive-π0中。这种设计反映了人类的驾驶认知,驾驶员有选择地关注关键的视觉线索,而不是详尽地处理所有的视觉信息。此外,我们通过训练另一个路由器来激活针对不同驾驶行为的专门专家模块,从而添加了Action MoE。通过明确的行为专业化,DriveMoE能够处理各种场景,而不会像现有模型那样受到模态平均的影响。在Bench2Drive闭环评估实验中,DriveMoE实现了最先进的(SOTA)性能,证明了在自动驾驶任务中结合视觉和动作MoE的有效性。我们将发布DriveMoE和Drive-π0的代码和模型。

主要贡献如下:
我们将最初为嵌入式AI设计的VLA基础模型π0扩展到自动驾驶领域,将Drive-π0开发为视觉感知、情境理解和行动规划的统一框架。
认识到嵌入式人工智能和自动驾驶之间的差异,提出了DriveMoE,这是第一个将混合专家(MoE)集成到感知和决策中的框架,以解决多视图处理和多样化驾驶行为中的效率低下问题。
我们设计了一个用于动态相机视图选择的场景专用视觉MoE和一个用于特定行为规划的技能专用动作MoE,解决了多视图冗余和技能专业化的挑战。
我们证明,DriveMoE在Bench2Drive闭环仿真基准上实现了最先进的(SOTA)性能,显著提高了对罕见驾驶行为的鲁棒性。
实验结果:

标题:DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models
链接:https://arxiv.org/abs/2506.05667
数据集:https://huggingface.co/datasets/LiAuto-DriveAction/drive-action
单位:理想汽车
摘要:视觉语言行动(VLA)模型具有先进的自动驾驶技术,但现有的基准仍然缺乏场景多样性、可靠的行动级注释和符合人类偏好的评估协议。为了解决这些局限性,我们引入了DriveAction,这是第一个专门为VLA模型设计的动作驱动基准,由2610个驾驶场景生成的16185个QA对组成。DriveAction利用生产级自动驾驶汽车用户主动收集的真实驾驶数据来确保广泛和有代表性的场景覆盖,提供直接从用户实际驾驶操作中收集的高级离散行动标签,并实施了一个基于行动的树形结构评估框架,该框架明确地将视觉、语言和行动任务联系起来,支持全面和特定任务的评估。我们的实验表明,最先进的视觉语言模型(VLM)需要视觉和语言指导才能进行准确的动作预测:平均而言,在没有视觉输入的情况下,准确率下降了3.3%,没有语言输入的情况下降了4.1%,没有语言输入的情况下下降了8.0%。我们的评估支持以稳健和一致的结果精确识别模型瓶颈,从而为推进自动驾驶中的类人决策提供新的见解和严谨的基础。

标题:Vision-Language-Action Models: Concepts, Progress, Applications and Challenges
链接:https://arxiv.org/abs/2505.04769
单位:康奈尔大学等
VLA综述

标题:OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model
链接:https://arxiv.org/abs/2503.23463
主页:https://drivevla.github.io/
单位:慕尼黑工业大学、慕尼黑大学
摘要:我们介绍OpenDriveVLA,这是一种专为端到端自动驾驶设计的视觉语言动作(VLA)模型。OpenDriveVLA建立在开源预训练的大型视觉语言模型(VLM)之上,以生成可靠的驾驶行为,这些行为取决于3D环境感知、自车状态和驾驶员命令。为了弥合驱动视觉表示和语言嵌入之间的模态差距,我们提出了一种分层视觉语言对齐过程,将2D和3D结构化视觉标记投影到统一的语义空间中。此外,OpenDriveVLA通过自回归代理-环境-自我交互过程对自我-车辆、周围代理和静态道路元素之间的动态关系进行建模,确保在空间和行为上知情的轨迹规划。nuScenes数据集上的大量实验表明,OpenDriveVLA在开环轨迹规划和驾驶相关问答任务中取得了最先进的结果。定性分析进一步说明了OpenDriveVLA在遵循高级驾驶命令和在具有挑战性的场景下稳健生成轨迹方面的卓越能力,突显了其在下一代端到端自动驾驶方面的潜力。我们将发布我们的代码,以促进该领域的进一步研究。

主要贡献如下:
提出了OpenDriveVLA,这是一个端到端的视觉语言动作模型,它生成了基于多模态输入的可靠驾驶轨迹。
引入了一个分层视觉语言特征对齐模块,将结构化的2D和3D视觉标记投影到统一的语义嵌入空间中,以促进语言引导的轨迹生成。
设计了一个代理-环境-自我交互过程,以捕捉自我车辆、动态代理和静态地图元素之间的交互,显著提高了复杂交通场景中的运动预测准确性和轨迹可靠性。
在nuScenes数据集上进行的广泛实验表明,OpenDriveVLA在开环规划和驾驶相关问答方面都取得了最新的最先进成果,始终优于之前基于LLM和端到端的自动驾驶方法。
实验结果:

标题:ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation
链接:https://arxiv.org/abs/2503.19755
主页:https://xiaomi-mlab.github.io/Orion/
单位:华科、小米
摘要:由于因果推理能力有限,端到端(E2E)自动驾驶方法在交互式闭环评估中仍难以做出正确决策。目前的方法试图利用视觉语言模型(VLMs)强大的理解和推理能力来解决这一困境。然而,由于语义推理空间和动作空间中纯数值轨迹输出之间的差距,E2E方法的VLM在闭环评估中表现良好的问题仍然存在。为了解决这个问题,我们提出了ORION,这是一个通过视觉语言指导动作生成的整体E2E自动驾驶框架。ORION独特地结合了QT Former来聚合长期历史背景、用于驱动场景推理的大型语言模型(LLM)和用于精确轨迹预测的生成规划器。ORION进一步将推理空间和动作空间对齐,为视觉问答(VQA)和规划任务实现统一的E2E优化。我们的方法在挑战Bench2Drive数据集上实现了令人印象深刻的闭环性能,即77.74的驾驶分数(DS)和54.62%的成功率(SR),比最先进的(SOTA)方法高出14.28 DS和19.61%SR。
主要贡献如下:
由于生成模型能够表征数据的潜在分布,我们通过生成规划器弥合了VLM推理空间和轨迹动作空间之间的差距,使VLM能够理解场景并指导轨迹生成。
ORION中的QT former有效地捕获了长期的时间依赖性,使模型能够将时间视觉上下文集成到推理和动作空间中。
ORION在Bench2Drive闭环基准测试中表现出色,没有花哨的功能。实验还表明,ORION与多种生成模型兼容,这进一步证明了我们提出的框架的灵活性。

实验结果:
标题:VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving
链接:https://arxiv.org/abs/2412.15544
主页:https://www.huang-zilin.com/VLM-RL-website/
单位:威斯康星大学麦迪逊分校
摘要:近年来,基于强化学习(RL)的学习驾驶策略的方法在自动驾驶领域越来越受到关注,并在各种驾驶场景中取得了显著进展。然而,传统的强化学习方法依赖于人工设计的奖励,这需要大量的人力,而且往往缺乏通用性。为了解决这些局限性,我们提出了\textbf{VLM-RL},这是一个统一的框架,将预训练的视觉语言模型(VLMs)与RL集成在一起,使用图像观察和自然语言目标生成奖励信号。VLM-RL的核心是对比语言目标(CLG)作为奖励范式,它使用积极和消极的语言目标来产生语义奖励。我们进一步引入了一种分层奖励合成方法,该方法将基于CLG的语义奖励与车辆状态信息相结合,提高了奖励稳定性,并提供了更全面的奖励信号。此外,在训练过程中采用批处理技术来优化计算效率。CARLA模拟器中的大量实验表明,VLM-RL优于最先进的基线,碰撞率降低了10.5%,路线完成率提高了104.6%,对看不见的驾驶场景具有鲁棒的泛化能力。此外,VLM-RL可以无缝集成几乎任何标准的RL算法,有可能彻底改变依赖人工奖励工程的现有RL范式,并实现持续的性能改进。
标题:OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving
链接:https://arxiv.org/abs/2412.15208
代码:https://github.com/taco-group/OpenEMMA
单位:德州农工大学
摘要:自从多模态大型语言模型(MLLM)出现以来,它们在广泛的现实世界应用中产生了重大影响,特别是在自动驾驶(AD)领域。他们处理复杂视觉数据和推理复杂驾驶场景的能力为端到端AD系统的新范式铺平了道路。然而,开发AD端到端模型的进展缓慢,因为现有的微调方法需要大量资源,包括广泛的计算能力、大规模数据集和大量资金。从推理计算的最新进展中汲取灵感,我们提出了OpenEMMA,这是一个基于MLLM的开源端到端框架。通过整合思维链推理过程,OpenEMMA在利用各种MLLM时,与基线相比实现了显著改进。此外,OpenEMMA在各种具有挑战性的驾驶场景中展示了有效性、通用性和鲁棒性,为自动驾驶提供了一种更高效、更有效的方法。

标题:EMMA: End-to-End Multimodal Model for Autonomous Driving
链接:https://arxiv.org/abs/2410.23262
主页:https://waymo.com/blog/2024/10/introducing-emma/
单位:Waymo
摘要:我们介绍了EMMA,一种用于自动驾驶的端到端多模态模型。EMMA建立在多模态大型语言模型的基础上,将原始摄像头传感器数据直接映射到各种特定于驾驶的输出中,包括规划者轨迹、感知对象和道路图元素。EMMA通过将所有非传感器输入(如导航指令和自车状态)和输出(如轨迹和3D位置)表示为自然语言文本,最大限度地利用了预训练的大型语言模型中的世界知识。这种方法允许EMMA在统一的语言空间中联合处理各种驾驶任务,并使用任务特定的提示为每个任务生成输出。根据经验,我们通过在nuScenes上实现最先进的运动规划性能以及在Waymo开放运动数据集(WOMD)上取得有竞争力的结果来证明EMMA的有效性。EMMA还为Waymo开放数据集(WOD)上的相机主3D对象检测提供了有竞争力的结果。我们表明,将EMMA与规划器轨迹、对象检测和道路图任务联合训练,可以在所有三个领域取得进步,突显了EMMA作为自动驾驶应用的通用模型的潜力。然而,EMMA也表现出一定的局限性:它只能处理少量的图像帧,不包含激光雷达或雷达等精确的3D传感方式,计算成本很高。我们希望我们的研究结果能够激发进一步的研究,以缓解这些问题,并进一步发展自动驾驶模型架构的最新技术。

标题:Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving
链接:https://arxiv.org/abs/2410.22313
主页:https://github.com/hustvl/Senna
单位:华科、地平线
摘要:端到端自动驾驶在大规模数据方面表现出强大的规划能力,但由于常识有限,在复杂、罕见的场景中仍存在困难。相比之下,视觉语言模型(LVLM)在场景理解和推理方面表现出色。前进的道路在于融合两种方法的优势。以前使用LVLM预测轨迹或控制信号的方法会产生次优结果,因为LVLM不太适合精确的数值预测。本文介绍了Senna,这是一种将LVLM(Senna VLM)与端到端模型(Senna-E2E)相结合的自动驾驶系统。Senna将高级规划与低级轨迹预测脱钩。Senna VLM以自然语言生成规划决策,而Senna-E2E则预测精确的轨迹。Senna VLM利用多图像编码方法和多视图提示来实现高效的场景理解。此外,我们引入了以计划为导向的QA和三阶段培训策略,在保持常识的同时提高了Senna VLM的计划绩效。对两个数据集的广泛实验表明,Senna实现了最先进的规划性能。值得注意的是,通过在大规模数据集DriveX上进行预训练和在nuScenes上进行微调,Senna与未经预训练的模型相比,显著降低了27.12%的平均规划误差和33.33%的碰撞率。我们认为,Senna的跨场景泛化和可转移性对于实现全自动驾驶至关重要。

写在最后
最后分享下笔者对自动驾驶VLA进展的个人看法:
基准还需进一步建立,很多工作都在构建智驾VLA Benchmark,像Impromptu VLA、DriveAction,其中DriveAction比较侧重国内的实车场景,未来期望更多业内公司开源有价值的VLA基准;
前沿算法主要聚焦在图像上的理解:思维链、空间理解这些都是当下的标配了,但是实车运行中是否需要这么长的思维链是需要打问号的;
时序的工作还比较少,而车端算法基本上都要求时序,未来应该会有进一步的工作;
轨迹的输出形式有两大类:大模型文本输出或者多模轨迹生成,未来多模轨迹生成应该会是主流的形式,;
大规模自动驾驶预训练模型/基座模型仍然欠缺,大部分的工作使用开源大模型Qwen或者自驾环视图像的小规模预训练(nuScenes、Bench2Drive);
本文提及的相关算法第一时间已经汇总至『自动驾驶之心知识星球』。我们目标是未来3年内打造一个万人聚集的智能驾驶&具身智能社区,这里也非常欢迎优秀的同学加入我们(目前已经有华为天才少年、自驾领域研究前沿的多为大佬加入)。我们和多家业内公司搭建了学术 + 产品+ 招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环(课程 + 硬件+问答)。社区里面既能看到最新的行业技术动态、技术分享,也有非常多的技术讨论、入门问答,以及必不可少的行业动态及求职分享。具身智能这么火,要不要考虑转行?自动驾驶技术的未来发展趋势如何?大模型如何预自动驾驶&具身智能结合?这些都是我们持续关注的
自动驾驶之心知识星球
星球创建的初衷是为了给自动驾驶行业提供一个技术交流平台,交流学术和工程上的问题。星球成员主要来在校本科/硕士/博士生,以及想要转行或者进阶的算法工程人员,这其中包括但不限于:清华大学、北京大学、复旦大学、德州农工、西湖大学、上海交大、上海人工智能实验室、港科大、港大、港中文、南洋理工、新加坡国立、ETH、南京大学等等;除此之外,我们还和许多公司建立了校招/社招内推,包括小米汽车、地平线、理想汽车、小鹏、英伟达、比亚迪、华为、大疆、博世、斑马、Momenta、蔚来、百度等等业界知名公司!
如果您是自动驾驶和AI公司的创始人、高管、产品经理、运营人员或者数据/高精地图相关公司,也非常欢迎加入,资源的对接与引进也是我们一直在推动的!我们坚信自动驾驶能够改变人类未来出行,想要加入该行业推动社会进步的小伙伴们,星球内部准备了基础到进阶模块,算法讲解+代码实现,轻松搞定学习!