华科&小米联合提出MindDrive：首个证实在线强化学习有效性的VLA框架......

原创于 2025-12-17 08:01:50 发布 · 146 阅读

5 ·

CC 4.0 BY-SA版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Haoyu Fu等

编辑 | 自动驾驶之心

华科&小米的一篇新工作MindDrive，提出了一种基于在线强化学习的VLA框架。相比RecogDrive、ORION提升了不少，在Qwen2-0.5B的基座上效果挺不错的。

当前自动驾驶领域VLA的相关工作主要依赖模仿学习，这会带来分布偏移和因果混淆等固有挑战。在线强化学习通过试错学习为解决这些问题提供了一条极具潜力的途径。然而，将在线强化学习应用于自动驾驶视觉-语言-动作模型时，面临着连续动作空间中探索效率低下的难题。为克服这一限制，华科和小米的团队提出了MindDrive——一种包含大语言模型（LLM）的视觉-语言-动作框架，该模型配备两组不同的LoRA参数。其中一组大语言模型充当决策专家，负责场景推理和驾驶决策；另一组则作为动作专家，将语言决策动态映射为可行驶轨迹。通过将轨迹级奖励反馈至推理空间，MindDrive能够在有限的离散语言驾驶决策集合上进行试错学习，而非直接在连续动作空间中操作。该方法有效平衡了复杂场景下的最优决策、类人驾驶行为与在线强化学习中的高效探索。在具有挑战性的Bench2Drive基准测试中，MindDrive取得了优异的闭环性能，驾驶得分（DS）达78.04分，成功率（SR）为55.09%。据我们所知，这是首个证实在线强化学习对自动驾驶视觉-语言-动作模型有效性的研究。

论文标题：MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning
论文链接：https://arxiv.org/abs/2512.13636
项目主页：https://xiaomi-mlab.github.io/MindDrive/

一、背景回顾

自动驾驶依赖模型在动态复杂环境中的感知、决策与动作执行的能力。传统端到端自动驾驶框架整合了感知、预测和规划模块，但缺乏常识和因果推理能力。随着视觉语言模型（VLM）在视觉理解和推理能力上的提升，众多研究尝试将视觉-语言-动作（VLA）范式应用于端到端自动驾驶领域。自动驾驶中的视觉-语言-动作范式旨在将复杂交通场景的理解转化为自车的行驶轨迹。

当前的视觉-语言-动作模型主要采用模仿学习（IL）进行训练，其目标是拟合从收集到的驾驶数据中提取的专家行为。然而，单纯依赖模仿学习范式会导致模型易受因果混淆和分布偏移的影响，进而在闭环驾驶场景中产生不可逆的误差累积。强化学习通过试错学习为解决这些挑战提供了新思路，并在提升视觉语言模型的因果推理能力方面取得了显著成效。

与视觉语言模型离散语言空间中的强化学习不同，自动驾驶的动作空间是连续的轨迹空间。当前强化学习在自动驾驶视觉-语言-动作领域的应用主要分为两类范式：动作空间的离线强化学习和语言空间的在线强化学习。离线强化学习通常基于专家演示构建的固定数据集进行训练，如图1（a）所示。这些方法采用带有不同奖励函数的离线强化学习，在动作空间中生成更可行的轨迹。尽管取得了一定进展，但离线强化学习限制了视觉-语言-动作模型通过与环境交互进行探索的能力。此外，强化学习中对轨迹的优化无法有效提升视觉语言模型的推理能力。为克服这些限制，部分方法尝试在语言空间中应用在线强化学习，如图1（b）所示。这些方法将驾驶决策视为动作，通过在线强化学习加深对因果推理的理解，但难以将驾驶决策有效映射为具体且类人的驾驶轨迹。因此，利用在线强化学习提升自动驾驶视觉-语言-动作模型的性能仍需进一步探索。

为应对上述挑战，我们提出了一种新型架构MindDrive——一种基于在线强化学习的自动驾驶视觉-语言-动作模型，如图1（c）所示。MindDrive通过动态映射将动作空间从轨迹转化为基于语言的决策，在利用轨迹奖励强化模型在线推理的同时，显著提升了探索效率。具体而言，MindDrive包含两个同质的大语言模型，仅在各自的低秩适配（LoRA）适配器上存在差异。其中一个大语言模型作为决策专家，负责根据当前场景做出合理决策；另一个作为动作专家，建立推理结果到连续轨迹的动态映射。MindDrive首先通过模仿学习在决策专家推断的元动作与动作专家输出的多模态轨迹之间建立一一对应关系。动作专家输出的高质量驾驶轨迹为在线强化学习提供了合理且类人的候选轨迹。随后，我们利用在线强化学习对决策专家进行优化，使其能够通过采样不同轨迹并从在线交互环境中接收相应的奖励信号，学习如何做出正确决策。同时，为实现模型在动态交互环境中的探索与训练，我们基于CARLA仿真器构建了一个面向自动驾驶视觉-语言-动作模型的在线闭环强化学习框架。我们定义了明确的任务成败信号，并将在线强化学习过程划分为数据收集和训练两个阶段。在数据收集阶段，我们计算并缓存每帧的场景令牌，作为紧凑的状态表示。这一预计算步骤降低了内存缓冲开销，支持大批量训练，并使整个过程可表述为标准的马尔可夫决策过程。

我们在全面且具有挑战性的闭环基准测试Bench2Drive上评估了MindDrive的驾驶能力。大量实验表明，我们的框架在复杂驾驶场景中实现了更有效的驾驶行为。值得注意的是，即使采用轻量级的0.5B参数大语言模型，MindDrive仍取得了78.04分的驾驶得分（DS）和55.09%的成功率（SR），分别比相同参数规模的强基线模型高出5.15分和9.26%。

本文的主要贡献如下：

提出了MindDrive——一种面向视觉-语言-动作自动驾驶模型的在线强化学习框架。通过引入动态的语言-动作映射，MindDrive显著提升了探索效率，并利用轨迹级动作奖励促进推理优化。
提出了一种计算高效的在线强化学习方案。据我们所知，MindDrive是首个在仿真器中通过在线强化学习训练的基于视觉-语言-动作的自动驾驶模型，旨在为自动驾驶领域带来新的启发。
大量实验验证了MindDrive的有效性，其在Bench2Drive基准测试中取得了78.04分的驾驶得分和55.09%的成功率，显著优于相同模型规模下最先进的模仿学习基线。

二、MindDrive算法详解

本节将详细介绍所提出的MindDrive。如图2所示，MindDrive的架构包含两个核心组件：决策专家（Decision Expert）和动作专家（Action Expert）。两者共享相同的视觉编码器（Vision Encoder）和文本分词器（Text Tokenizer），仅在各自的低秩适配（LoRA）参数上存在差异。决策专家基于导航指令和多视角视觉输入进行高层推理，以元动作（meta-actions）的形式生成抽象驾驶决策；动作专家则结合场景信息和指令，将这些元动作转化为具体的动作轨迹。该设计实现了灵活且可解释的动作生成，衔接了高层推理与低层控制。我们的训练过程分为两个阶段：1）模仿学习（IL）建立语言与动作空间的映射，为在线强化学习（RL）提供高质量候选轨迹，有效缩小其探索空间；2）在线强化学习通过在线环境中的动作奖励进一步提升模型的理解能力。

问题表述

在端到端自动驾驶任务中，我们旨在基于周围视觉信息和语言指令，生成多样化轨迹集合并确定最优轨迹：

其中，表示多模态轨迹集合中的轨迹，为轨迹生成策略函数。现有方法通常基于得分选择策略挑选最优轨迹：

为充分发挥视觉-语言-动作（VLA）模型的潜力，我们将选择任务建模为动作决策过程，并引入作为选择策略函数：

由式（3）可知，最优轨迹的生成依赖两个核心策略函数：（选择策略）和（生成策略）。现有方法未能在在线强化学习中建立这两个策略空间的关联。为解决该问题，我们建立了从语言元动作到轨迹的映射关系，再通过在线强化学习利用轨迹反馈优化的推理过程。在线强化学习使模型能通过与动态环境的交互持续学习和优化策略，这对提升模型的因果关系理解至关重要。

我们将轨迹决策过程建模为马尔可夫决策过程（MDP）以适配在线强化学习。该MDP可表示为元组：状态包含智能体在第步决策所需的所有必要信息；模型根据策略从动作空间中选择动作；执行动作后，系统将根据闭环仿真环境隐含定义的动态特性转移至新状态；奖励是评估在状态下执行动作质量的标量反馈信号。我们的目标是学习决策策略，在折扣因子的引导下，最大化收集数据中的期望累积折扣奖励，目标函数定义为：

语言-动作映射

为增强决策策略与轨迹生成策略之间的协同性，我们将单个大语言模型（LLM）解耦为两个配备不同LoRA参数的专用专家。其中一个大语言模型作为决策专家，实现策略；另一个作为动作专家，负责策略。该架构确保两者在共享世界知识基础的同时，各司其职。

我们首先利用模仿学习在决策专家与动作专家之间建立映射，构建语言与动作的关联，以提升后续强化学习过程的探索效率。受其他工作启发，我们将控制解耦为纵向控制和横向控制，以提高规划灵活性，并在规划问答（QA）中设计相应的元动作。我们利用大语言模型生成规划问答对，并通过人工筛选进行优化，确保语言与动作的一一对应。随后，模型在推理数据和规划问答对上进行训练，学习从语言到动作的映射，损失函数表示为：

接着，在动作专家中，我们将元动作映射为纵向控制的时间速度轨迹和横向控制的几何路径轨迹。具体而言，我们利用动作专家的自回归特性，将视觉和语言信息编码为隐藏状态，并引入两个特殊令牌<speed waypoints>（速度航点）和<path waypoints>（路径航点），从动作专家的输出中提取对数概率：

最后，我们采用带有门控循环单元（GRU）解码器的变分自编码器（VAE）对齐语言和动作空间，直接将视觉-语言表示转化为最终的动作轨迹：

其中，是 latent 空间中的高斯变量。我们采用常用的检测损失进行辅助监督；变分自编码器在专家轨迹的监督下，通过KL散度损失进行训练；对于速度和路径航点回归，我们采用L1损失作为行为克隆损失。总损失为：

面向动作推理的在线强化学习

模仿学习能生成类人轨迹，但常受因果混淆问题困扰。为解决这一问题，我们在CARLA仿真器中引入在线强化学习。如图3所示，这种在线方式使智能体能通过试错探索环境，从直接交互及其后果中学习，进而提升模型在复杂场景下的驾驶性能。

为充分利用模仿学习获得的先验知识，价值网络与大语言模型共享相同权重，仅将最后一层替换为多层感知机（MLP）以预测状态价值。为实现高效的滚动（rollout）过程，我们部署了个并行的CARLA数据采集器，重点关注模仿学习后模型未能完成的不同场景路线。每一步中，我们利用视觉编码器处理场景中的视觉信息并转化为状态嵌入；以提问形式查询决策专家，并从其输出的元动作令牌对数概率中采样；采样得到的元动作通过动作专家进一步映射为动作空间中的精确轨迹。同时，价值网络用于估计每个决策步骤下当前状态的价值。

由于MindDrive已通过模仿学习预训练掌握了基本驾驶技能，我们采用稀疏奖励函数引导其高层推理空间的优化：车辆成功到达目的地时奖励为+1；触发预定义惩罚事件时奖励为-1；其他正常驾驶场景下奖励为0。奖励函数定义如下：

我们采用CARLA官方排行榜指标作为惩罚事件，包括与其他车辆碰撞、闯红灯等严重违规行为。一旦触发任何惩罚事件，滚动过程立即终止。收集完完整路线后，通过时序差分法计算值：

其中，是价值网络函数，是折扣因子，用于合理权衡未来奖励在决策过程中的权重。随后计算广义优势估计（GAE）：

其中，是迹衰减参数，用于控制优势估计中的偏差-方差权衡。

我们未直接使用多帧图像进行强化学习训练，而是采用视觉编码器提取的状态嵌入表示当前状态。该方法可同时整合时序和视觉信息，并通过避免重复计算提升计算效率。我们将每一步的价值、决策-动作及奖励存储至数据缓冲区；收集完所有路线后，利用近端策略优化（PPO）算法优化策略：

其中，是PPO中的裁剪参数。得益于所提出的强化学习训练框架，MindDrive能够支持大批量训练，实现稳定优化。

同时，为缓解强化学习微调阶段的灾难性遗忘问题，我们引入KL散度损失作为正则化项，用于约束决策专家元动作的输出分布，公式表示为：

训练过程中，仅更新价值网络中多层感知机头部的参数，通过最小化均方误差（MSE）损失实现优化：

最终，在线强化策略学习损失为：

其中，是控制KL正则化强度的系数。

实验结果分析

主要结果

我们在Bench2Drive基准测试集上，将MindDrive与传统端到端（E2E）和视觉-语言-动作（VLA）范式的代表性方法进行了全面对比。表1列出了详细结果，主要发现如下：

轻量级模型实现优异性能：与传统端到端方法相比，MindDrive超越了最新的最先进（SOTA）模仿学习模型DiffAD，驾驶得分提升10.12分，成功率提升16.45%；超越离线强化学习方法Raw2Drive，驾驶得分提升6.68分，成功率提升4.85%。在视觉-语言-动作范式中，MindDrive与最先进的模仿学习模型ORION性能相当，且比DriveMoE的驾驶得分高3.82分，成功率高6.45%。值得注意的是，MindDrive采用轻量级Qwen2-0.5B模型，而ORION和DriveMoE分别使用更大规模的Vicuna1.5-7B和Paligemma-3B模型，凸显了我们方法的高效性。
在线强化学习增强复杂动态交互能力：如表1所示，MindDrive相较于其他方法展现出明显优势。它超越离线强化学习方法RecogDrive，驾驶得分提升6.68分，成功率提升9.64%；相较于MindDrive-IL（仅模仿学习版本），驾驶得分提升2.19分，成功率提升5.79%，充分验证了所提在线强化学习范式的优越性。多能力评估结果进一步支持这一发现：MindDrive的平均能力比RecogDrive提升14.91%，比采用相同轻量级大语言模型的模仿学习方法ORION提升5.57%。特别是在与元动作选择密切相关的能力上，超车（Overtaking）能力提升55.56%，让行（Give Way）能力提升30%。尽管MindDrive在紧急制动（Emergency Brake）和交通标志识别（Traffic Sign）能力上略低于最先进的视觉-语言-动作方法，但相较于MindDrive-IL仍有显著提升，分别提高8.33%和0.98%。这些结果证实，在线强化学习显著增强了模型在复杂交互环境中的因果推理能力和决策鲁棒性。

消融实验

消融实验中，除非另有说明，每条路线执行两次在线强化学习rollout。

惩罚事件消融：在线强化学习阶段，我们引入四类惩罚事件：与行人或车辆碰撞、闯红灯、驶离道路或偏离路线超过30米、不遵守停车标志（分别记为碰撞、交通灯、路线偏离、停车），并为触发这些事件的模型分配-1的稀疏奖励。如表2所示，随着这些惩罚事件的逐步加入，模型的成功率和平均驾驶能力相较于模仿学习基准（ID-1）持续提升。具体而言，引入碰撞惩罚（ID-2）后，成功率较基准提升1.4%，平均能力提升3.76%，且驾驶得分保持相当水平；在超车场景中，MindDrive表现尤为突出，较基准提升4.44%，这得益于模型学会了在连续交互的交通流中采取更主动的避撞策略，但这种策略转变也导致并道（Merging）性能有所下降。引入交通灯惩罚（ID-3）后，交通标志识别能力提升1.52%，紧急制动能力提升8.97%，但惩罚中的冲突奖励信号导致超车性能明显下降。引入路线偏离惩罚（ID-4）有助于在果断性和谨慎性之间取得更好平衡，但对探索的严格约束限制了进一步的性能提升。值得注意的是，添加停车标志惩罚后，模型整体性能显著提升——这与停车元动作高度相关，能促进更有效的策略学习，尤其在含停车标志的并道场景中，相较于ID-4，并道能力提升5.26%，成功率提升3.24%。无需复杂的奖励工程，MindDrive即可通过在线试错发现有效的驾驶策略，从失败中自主学习以逐步确定最优动作。

rollout次数消融：我们进一步分析了在线强化学习过程中滚动次数对MindDrive的影响。如图4所示，仅执行一次滚动时，价值网络的估计不准确导致动作优势估计出现偏差，性能较基准下降；执行两次滚动后，模型显著超越基准，驾驶得分提升2.19分，成功率提升5.79%；但继续增加滚动次数会导致性能大幅下降，驾驶得分从78.04降至73.69，成功率从55.09%降至45.12%。这一退化源于灾难性遗忘——过多滚动导致策略过拟合近期经验，忘记之前学到的场景理解能力。因此，我们将默认滚动次数设为2，以平衡探索效率和训练稳定性。

策略正则化消融：我们在PPO框架内评估了不同的策略正则化方法，结果如表3所示。我们的方法（PPO-KL）相较于基础PPO（PPO-Vanilla），驾驶得分提升3.31分，成功率提升8.36%，表明KL散度损失能有效稳定强化学习训练过程中的策略更新，缓解灾难性遗忘；相较于基于熵的正则化（PPO-Entropy），驾驶得分提升2.33分，成功率提升5.85%，说明尽管熵正则化能促进探索，但过多的策略随机性对于目标导向的驾驶任务并非最优。总体而言，我们的KL正则化方法实现了更高效的学习，策略优化过程更快，样本效率高于基准方法。

控制方法消融：我们通过对比两种高层指令方式，研究了不同控制方法的效果：导航指令和大语言模型生成的元动作。如表4所示，基于视觉语言模型引导的元动作模仿学习模型，相较于导航指令基准，驾驶得分提升7.74分，成功率提升7.71%，表明视觉语言模型衍生的元动作能支持复杂交通场景下更有效的推理；引入在线强化学习后，元动作选择进一步优化，驾驶得分额外提升2.19分，成功率额外提升5.79%。

定性结果

图5展示了MindDrive的模仿学习版本与强化学习版本的定性对比。模仿学习范式在特定任务上表现出较强能力（如及时发出停车指令以实现早期制动），但仅通过模仿学习训练的MindDrive在动态交互场景中表现不佳，尤其在需要复杂决策的场景（如确定最优变道时机）中。经过强化学习训练后，MindDrive在具有挑战性的场景中能选择更稳健的元动作，实现更安全、更果断的变道行为。这些定性结果表明，强化学习阶段显著提升了视觉语言模型的高层推理和决策能力，使其能更好地应对复杂且不确定的交通环境。