点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享中科院最新的工作—ReasonPlan!闭环自动驾驶的统一场景预测与决策推理。如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>点击进入→自动驾驶之心『多模态大模型』技术交流群
论文作者 | Xueyi Liu等
编辑 | 自动驾驶之心
中科院团队的工作,提出了名为ReasonPlan的算法,在Bench2Drive上取得了还不错的效果。主要有两点值得借鉴:自监督的下一场景预测任务和监督决策思维链过程,同时输出结果具备一定的空间理解能力。
写在前面 & 笔者的个人理解
由于多模态大语言模型(MLLMs)具有强大的视觉-语言推理和泛化能力,在端到端(E2E)自动驾驶领域引起了广泛关注。然而它们在闭环系统中的应用仍鲜有探索,并且当前基于MLLM的方法尚未显示出比主流的E2E模仿学习方法明显优越。在这项工作中,我们提出了ReasonPlan,这是一种新颖的MLLM微调框架,专为通过整体推理进行闭环驾驶而设计,结合了自监督的下一场景预测任务和监督决策思维链过程。这种双重机制鼓励模型将视觉表示与可操作的驾驶上下文对齐,同时促进可解释且因果关系明确的决策制定。我们整理了一个面向规划的决策推理数据集,即PDR,其中包含21万个多样且高质量的样本。我们的方法在Bench2Drive基准测试中以19% L2误差和16.1驾驶分数的优势超越了主流的E2E模仿学习方法。此外,ReasonPlan在未见过的DOS基准测试中表现出强大的零样本泛化能力,突显了其处理零样本边缘情况的适应性。
论文链接:https://arxiv.org/abs/2505.20024
代码链接:https://github.com/Liuxueyi/ReasonPlan
引言
近年来,端到端(E2E)自动驾驶展现了一种可扩展的、数据驱动的范式,吸引了越来越多的关注。尽管其在简化驾驶流程方面具有优势,但大多数现有的 E2E 方法依赖于模仿学习,并且在复杂的闭环环境中表现出局限性。具体而言,它们在交互案例中经常出现因果混淆,并且难以推广到分布外场景。多模态大语言模型(MLLMs)的最新进展实现了视觉-语言推理和零样本泛化能力,为 E2E 自动驾驶提供了新的机遇。
最近的研究探索了双系统框架、用于增强 E2E 驾驶的 LLM 蒸馏以及以文本形式进行轨迹预测。尽管这些方法显示出一定的前景,但它们主要在开环设置下运行,或在闭环评估中表现不佳。这种局限性源于它们无法在需要动态适应环境变化的闭环场景中进行情境感知推理和稳健规划。我们总结出三个关键挑战限制了 MLLMs 推理能力的充分利用:(1) 仅使用单模态文本监督。现有方法使用仅文本来监督感知和决策过程,导致场景理解不足和情境意识有限。(2) 没有明确的推理过程。先前的工作利用多轮问答微调 LLM 来增强指令跟随能力,但未能充分发挥模型的链式推理(CoT)能力。(3) 缺乏面向规划的高质量推理数据集。因此,MLLM 在 E2E 闭环规划中的潜力仍未被充分挖掘,当前基于 MLLM 的方法尚未在闭环基准测试中显示出比模仿学习技术明显的优势 。

为了解决上述问题,我们从模型架构和训练数据集两方面进行了探索。从模型角度来看,我们提出了一种新颖的 MLLM 微调框架,即 ReasonPlan,该框架能够有效增强复杂闭环场景中的整体推理能力。ReasonPlan 包括一个自监督的下一场景预测(NSP)任务和一个受监督的决策链式推理(DeCoT)过程。具体来说,受到场景理解和生成建模最新进展的启发,我们引入了一个时间上的 NSP 任务,根据自我上下文条件来预测未来的视觉观察结果。这一目标约束了潜在空间中的图像标记表示,丰富了模型对驾驶场景的上下文理解。为了进一步利用在闭环和分布外评估中的推理和泛化能力,我们在 DeCoT 过程中引入了明确的文本监督。
从数据集角度来看,我们构建了一个大规模的、针对闭环规划的指令数据集,称为 PDR,其中包含 203,353 个训练样本和 11,047 个测试样本。通过自动化标注流水线,PDR 捕获了 Bench2Drive上训练场景中的完整决策推理过程,包括以下阶段:场景理解、交通标志识别、风险评估的关键对象识别和元动作。为确保数据集的质量和可靠性,所有推理步骤都经过彻底的人工验证。该数据集将公开发布,作为学习结构化且因果关系明确的决策推理的基础。
ReasonPlan 在 Bench2Drive 上取得了 64.01 的驾驶分数,并将 L2 误差降低了 16.44%,优于之前的最先进 E2E 模仿学习模型。此外,它在 DOS 上展示了强大的零样本泛化能力,突显了其在决策关键边缘情况下的适应性。
我们的主要贡献如下:
提出了 ReasonPlan,这是一种用于复杂闭环驾驶场景的新颖 MLLM 微调框架。结合自监督 NSP 和受监督 DeCoT,有效地耦合了视觉和语言模态,使全面的决策推理过程成为可能。
通过自动化标注流水线构建了大规模的决策推理数据集 PDR,包含 210k 多样且高质量的样本。
如图 1 所示,ReasonPlan 在 Bench2Drive 的开环和闭环设置中均表现出色,并在 DOS 场景中展示了强大的零样本泛化能力。
相关工作回顾
端到端自动驾驶
当前主流的端到端(E2E)自动驾驶方法直接基于模仿学习(IL)将原始传感器输入映射为轨迹。代表性的工作如 UniAD和 VAD将感知、预测和规划统一到一个框架中,实现了整个流程的联合优化。为了应对规划中的不确定性,SparseDrive在多模态规划框架中采用稀疏表示,而 UncAD则整合了具有不确定意识的在线地图。VADv2对动作上的概率分布进行建模,通过动作采样增强了鲁棒性。然而,这些方法在开环设置下进行评估时,模型容易过拟合特定的自车状态 。DiffusionDrive和 GoalFlow探索了一种新颖的生成范式,利用扩散模型在 Navsim中预测多样化的未来轨迹。其他一些研究在 CARLA中采用了闭环评估来评估驾驶鲁棒性。然而,这些基于 IL 的 E2E 方法仍然存在显著的因果混淆和有限的泛化能力。为此,我们提出了一种基于 MLLM 的 E2E 微调框架,旨在利用其预训练的世界知识和推理能力来解决闭环驾驶中的挑战。
自动驾驶中的多模态大语言模型
MLLMs 在跨语言、视觉和机器人领域的场景理解和高层推理方面表现出色,促使它们被集成到自动驾驶系统中。最近的研究通过双系统架构和知识蒸馏将 MLLMs 引入 E2E 框架。DriveVLM和 Senna利用 MLLMs 生成高层次的驾驶意图,随后由低级策略模块进一步细化以生成最终轨迹。VLP和 DiMA将 E2E 系统的关键组件与 MLLMs 对齐,将抽象推理能力提炼成轻量级的规划头。其他方法采用简单的问答微调来生成文本轨迹。例如,Reason2Drive通过 CoT 数据集和结构化标记化增强场景理解,而 TOKEN通过结合对象级别的感知和基于 LLM 的推理来改进长尾规划。尽管结果令人鼓舞,但这些方法仅限于开环评估。虽然有些方法探索了闭环设置,但它们通常依赖于简化的基准测试,如 Town05Long或 HighwayEnv。LMDrive引入了一种基于语言的闭环框架用于自动驾驶,缺乏结构化的推理任务。SimLingo基于 CarLLaVA引入了一个动作梦想任务,以连接语言和控制动作空间。为了充分利用 MLLMs 在复杂交互场景中的推理潜力,我们提出了一种统一的框架,紧密集成视觉和文本模态,使闭环场景中的综合决策推理和零样本泛化成为可能。
方法详解
概述
ReasonPlan的整体流程如图2所示。具体来说,ReasonPlan包含两个组件:(a) 自监督的下一场景预测任务,旨在增强场景表示和理解;(b) 受监督的决策链式推理过程,用于推理和可解释的规划。此外(c) 该框架分为两个阶段进行优化。

自监督的下一场景预测(NSP)
为了增强场景理解并有效对齐视觉特征空间与语言语义空间,我们引入了一个时间上的自监督NSP任务,如图3所示。我们的模型输入包括多视角RGB图像,记为 ,其中 是视角数量, 和 分别是每个图像的宽度和高度。我们首先将所有视角的图像调整为网格形式。此外,我们采用了一种AnyRes的分区策略,将前视图 划分为四个空间网格,以提高模型的效率和捕捉细粒度空间细节的能力。每个网格由视觉编码器SigLIP处理,生成一个视觉特征张量 ,其中 和 分别表示每个网格的视觉标记数量和视觉嵌入维度。为了对齐这些特征与文本空间,我们应用了一个两层MLP投影模块,将 映射到 ,其中 表示语言嵌入维度。这一过程可以正式写为:
考虑到车辆动力学和高层驾驶意图的关键作用,我们引入了一个上下文编码器,这是一个两层MLP模块,将自动驾驶车辆当前的速度 、加速度 和导航命令 嵌入到一个上下文表示中:
这个编码的上下文随后与视觉特征 融合,以指导未来场景表示的预测。在LLM之后,我们可以估计潜在的视觉嵌入 $ \hat{H}{vt+3} X{vt+3} H_{vt+3} $ 作为自监督信号。在自动驾驶中,前视图像包含了最具有语义信息的内容,捕捉到了轨迹规划的关键线索。我们在附录D中的消融研究还表明,对于NSP任务,训练前视图的效果与全视角设置相当。为了提高训练效率并消除冗余计算,我们在后续实验中统一采用前视NSP。虽然MSE损失仅在前视图上计算,但完整的图像特征被保留为条件,为后续的推理过程提供全面的上下文信息。
我们使用均方误差(MSE)损失在潜在特征空间中强制预测和未来视觉表示之间的一致性。通过基于动态和上下文线索的条件,我们的模型预期未来的感知状态与计划动作一致。通过时间上的自监督NSP任务,它整合了自我运动和场景上下文,增强了LLM的空间意识,实现了全面的场景理解和情境感知预测。

决策链式推理(DeCoT)
在NSP任务之后,文本空间中的DeCoT过程在我们的框架中至关重要。ReasonPlan利用LLM的预训练知识,结合视觉标记和文本指令,生成可解释的决策过程,并以文本形式生成可执行的轨迹。
如图2所示,系统提示和导航指令 首先被标记化为标记ID,然后使用文本编码器编码为文本嵌入 ,其中 和 分别表示文本标记的数量和文本空间的维度。为了实现有效的多模态对齐,我们在标记器词汇表中引入了一个特殊的<image>标记。为了保持空间意识并允许模型区分不同的视角,我们明确地用其对应的相机视角注释每个标记(例如,CAM_FRONT:<image>, ..., CAM_BACK:<image>)。这些<image>标记在图像编码器处理后动态替换为相应的视觉嵌入,从而无缝集成文本和视觉模态。为了更好地支持NSP和DeCoT的实现,我们在之外引入了六个额外的特殊标记。LLM的输入和目标序列结构如下:
用户:{velocity}{acceleration}{navigation command}{image tokens} t{prompt}.
助手: [BOS][BOI]{image tokens} t+3[EOI][BOT]{reasoning steps}[EOT]
{generated trajectory}[EOS].
其中[BOS]和[EOS]是文本标记器中的原始特殊标记,[BOI]和[EOI]标记图像标记的开始和结束。同样,[BOT]和[EOT]表示推理过程的开始和结束。
为了执行类人的推理,我们在语言模型的中间推理步骤上引入了显式的监督,从而增强其处理复杂决策任务的能力。结合视觉和文本模态,ReasonPlan在最终规划之前执行一个面向规划的思考过程,包括场景理解、交通标志识别、关键对象识别以进行风险评估和元动作。对于长度为 的序列,我们计算目标答案 的概率和交叉熵(CE)损失:

其中 和 分别是当前预测标记 之前所有轮次的指令和答案标记。
与传统的多轮问答范式不同,ReasonPlan在一次前向传递中执行多步推理,有效地利用了LLM的常识推理能力来处理自动驾驶任务。
训练策略
最终的训练目标被公式化为自监督图像预测损失和语言推理损失的加权组合:
其中 和 分别是视觉空间MSE损失和文本空间CE损失的权重。整体框架在两个阶段中进行优化,如图2(c)所示。在第一阶段,我们使用非决策监督来训练投影模块和上下文编码器,以对齐视觉特征空间和文本语义空间,同时从自动驾驶车辆状态和导航命令中提取上下文线索。在第二阶段,我们使用收集的PDM数据集共同微调投影模块、上下文编码器和LLM主干,将预训练的常识推理能力转移到复杂的驾驶场景中。
PDR:面向规划的决策推理数据集
尽管已有多种问答(QA)数据集被引入自动驾驶领域,但它们主要针对场景理解和开环评估设计,无法有效评估闭环驾驶中的实际驾驶性能。为弥补这一差距,我们构建了一个大规模、高质量的决策推理数据集——PDR(Planning-oriented Decision Reasoning Dataset),该数据集专注于轨迹规划,包含21万个多样且高质量的样本。我们开发了一条专为复杂闭环决策场景设计的自动化标注流水线,旨在利用大语言模型(LLM)在动态驾驶环境中的推理和泛化能力。
为构建一个可靠的推理数据集,我们将Bench2Drive [26] 提供的真实标注信息扩展为结构化的推理标签。每个推理轨迹都经过彻底的人工验证,以确保其一致性与可解释性。如图4所示,推理过程包括以下几个阶段:
场景理解:确定自车可通过左变道到达的车道,车道方向与自车一致;同时注意后方车辆,当前无右变道可能。
交通标志识别:识别到交通警告标志,并据此调整行驶策略。
风险评估关键对象识别:识别距离自车周围9.96米的静态锥形筒,预判其对后续移动的影响。
元动作规划:基于上述信息,决定加速并左变道。


实验结果分析
基准测试与评估指标
我们使用 Bench2Drive来评估 ReasonPlan 的闭环驾驶性能,该基准基于 Carla 领导榜 v2 提供了具有挑战性的交互式场景。为了进一步评估其推理能力,我们还在 DriveOcclusionSim (DOS) 上进行了零样本评估,这是一套复杂的场景,要求模型从动态驾驶环境中推断全局上下文。对于消融研究,由于评估 Bench2Drive 的 220 条路线可能需要几天时间,我们使用 Dev10进行快速验证。
实现细节:我们的框架处理六个环绕视图图像,这些图像的原始分辨率为 1600×900,并通过 AnyRes 策略调整大小并编码以生成十个尺寸为 384×384 的空间网格。我们的框架采用 SigLIP作为视觉编码器。对于语言模型,我们采用 Qwen-0.5B,这是一种轻量级但功能强大的大语言模型(LLM),在效率和推理能力之间取得了平衡。学习率固定为 5e-5,Limage 和 Ltext 的权重均设置为 1.0。更多细节见附录 C。
评估指标:对于开环情况,我们报告预测轨迹与专家轨迹之间的 L2 距离。对于闭环情况,我们采用 指标:(1) 路径完成率 (RC):完成路径的百分比;(2) 违规得分 (IS):交通违规处罚得分;(3) 驾驶得分 (DS):RC × IS(总体性能指标);(4) 成功率 (SR):无违规且及时完成的片段百分比;(5) 效率 (Effi):相对于周围车辆平均速度的自车速度;(6) 舒适度 (Comf):符合运动平滑阈值的程度。

与SOTA对比
如表 1 所示,ReasonPlan 在开环性能上表现最佳,将 L2 误差降低至 0.61,展示了优越的未来轨迹预测准确性。此外,在闭环评估中,ReasonPlan 相较于使用特权专家特征蒸馏的 SOTA 方法 DriveAdapter表现出了竞争力。具体而言,它实现了 64.01 的 DS,显著优于非蒸馏的基于 IL 的 SOTA 方法 MomAD,提升了 16.1% (+33.6%)。此外,ReasonPlan 相较于 MomAD提高了 16.44% (+90.78%) 的成功率。ReasonPlan 在所有评估方法中也达到了最高的效率得分180.64,显示了一种有效且积极的驾驶策略。25.63的舒适度得分反映了轨迹敏捷性和平滑性之间的常见权衡。尽管如此,舒适度边际仍在可接受范围内,可以通过后平滑或低级控制器调优进一步优化。
表 1 还展示了 ReasonPlan 在多种驾驶场景中的多能力评估性能。ReasonPlan 的平均能力得分为 36.66%,显著优于所有未利用任何专家特征蒸馏的 E2E 基线方法。这些结果突显了模型在不同驾驶意图上的强大推理能力,并验证了其在复杂多意图场景下的鲁棒性。
在复杂推理场景中的强零样本泛化能力:为了评估 ReasonPlan 的分布外泛化能力,我们在 DOS 基准上进行了零样本闭环评估,如表 2 所示。值得注意的是,没有方法是在 DOS 上训练的,确保了一个纯粹的零样本设置。ReasonPlan 在这些条件下表现出一致且优越的性能,平均 DS 达到 78.02。这些结果突显了 ReasonPlan 强大的泛化能力,由其整体推理管道驱动,即使在未见过的场景中也能实现稳健安全的决策。
定性结果
图 5 展示了 ReasonPlan 在两个代表性闭环评估场景中的定性结果。图中展示了 DeCoT 推理过程和相应的预测轨迹。与基线方法相比,ReasonPlan 在导航复杂交叉口和处理未见过的场景方面表现出色。

消融研究与分析
本节通过详细的消融研究,验证了我们提出的方法和数据集的有效性,包括模型和推理步骤的消融。
NSP 有效地建模动态场景转换并增强空间规划:NSP 模块通过对图像标记施加密集监督来引入细粒度的视觉理解。通过时间预测任务,它促进了改进的 3D 空间推理并增强了下游规划性能(表 3a ID 2)。然而,如果没有对决策进行明确的推理,仅 NSP 无法确保交通合规,导致较低的 IS。
DeCoT 通过结构化推理持续促进规划:DeCoT 将复杂的决策分解为可解释的推理步骤,并通过直接监督提高模型处理复杂场景的能力(表 3a ID 3)。
NSP 和 DeCoT 是互补且协同的:整合 NSP 和 DeCoT 可实现最佳的整体性能(表 3a ID 4),因为 NSP 提供丰富的视觉背景用于规划,而 DeCoT 通过结构化推理调节驾驶行为。这些组件使 ReasonPlan 能够在复杂场景中执行统一、可解释且有效的端到端规划。

结构化和完整的推理步骤带来了最佳的驾驶性能:如表 3b 所示,从完整推理管道中移除任何单一组件都会降低模型处理复杂场景的能力。特别是,省略代表驾驶决策的元动作步骤会导致 DS 显著下降。这些结果强调了细粒度推理在安全稳健决策中的重要性。此外,这些发现突显了由我们自动化标注流水线生成的 PDR 数据集的质量和有效性。
结论
在本研究中,我们提出了 ReasonPlan,这是一种新颖的微调框架,旨在将多模态大语言模型(MLLMs)应用于复杂的闭环场景。ReasonPlan 引入了一种时间上的自监督下一场景预测任务,并对决策链式思维过程施加了显式的监督,从而实现了视觉和文本模态的统一整合,以支持可解释的规划。通过在 Bench2Drive 和 DOS 上的全面评估,ReasonPlan 在开环和闭环设置下均表现出色。值得注意的是,它在未见过的任务上展示了强大的零样本泛化能力,突出了其在现实世界部署中的稳健性和潜力。我们的结果表明,基于 MLLM 的框架在弥合高层推理与低层规划之间的差距方面具有巨大前景,为更具认知性和通用性的自动驾驶系统铺平了道路。
局限性
首先,尽管 ReasonPlan 利用强大的推理能力解决了复杂推理和分布外场景中的挑战,但其依赖于 MLLMs,这带来了不可忽视的推理延迟。虽然目前 0.5B 规模的 LLM 在实时部署上是可以接受的,但更大的规模如 7B 仍难以实现实时部署。然而,新兴的潜在空间推理技术为提高框架的效率和响应能力提供了有希望的方向。此外,像 o1 或 DeepSeek-R1 这样的大型推理模型是否能为闭环自动驾驶提供更好的推理能力,值得进一步分析。其次,ReasonPlan 使用一种整体推理框架,其中动作表示为单模态文本输出。一个有前途的未来方向是解耦推理和动作生成——仅由 LLM 负责决策,而使用专门的生成模型来合成多模态轨迹。这种模块化设计受到机器人领域最近成功的启发,可能会进一步增强灵活性和可扩展性。第三,类似于大多数端到端框架,ReasonPlan 依赖于离线数据集上的监督微调,这限制了其从交互反馈中学习的能力,并可能导致偶尔发生碰撞(见附录 E)。通过强化学习进行后训练或集成环境感知适应机制可能是解决这一局限性的未来方向。最后但同样重要的是,尚不清楚 MLLMs 是否是端到端自动驾驶最合适的基模型,并且能够很好地对齐视觉语言和动作。自动驾驶的 VLA 基模型应进一步研究。
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com