点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享华科最新的工作!ReCogDrive:结合强化学习的三阶段VLA训练框架!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>点击进入→自动驾驶之心『VLA』技术交流群
论文作者 | Yongkang Li等
编辑 | 自动驾驶之心
1. 引言
尽管当前基于端到端(End-to-End)的自动驾驶模型(如UniAD、VAD)在NuScenes等开环基准测试中表现优异,但这些方法在面对现实世界自动驾驶中的长尾场景时,其性能往往显著下降。为了应对这一挑战,近期涌现出大量研究工作尝试引入视觉-语言大模型(Vision-Language Models, VLMs),旨在利用其丰富的世界知识和强大的泛化能力来解决长尾问题。例如,DriveVLM、Senna、DiffVLA、AsyncDriver等双系统架构将VLMs与传统端到端模型相结合;而EMMA、Omnidrive、Orion、GPT-Driver、LMDrive 、Sce2DriveX、Atlas、WiseAD等单系统框架则直接利用VLMs进行轨迹预测。
论文题目:ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving
论文链接:https://arxiv.org/abs/2506.08052
代码链接:https://github.com/xiaomi-research/recogdrive(将陆续开源模型、代码、权重)
然而,当前基于VLMs的自动驾驶规划模型主要存在以下关键缺陷:
VLMs通常在大规模的互联网图文数据上进行预训练,缺乏驾驶相关场景和关键的驾驶相关知识,限制了其在复杂多变真实驾驶环境中的应用。
VLMs输出的离散文本空间与自动驾驶所需的连续轨迹空间之间存在巨大鸿沟。同时,VLMs的自回归解码过程可能产生不符合预定格式的轨迹或错误的轨迹,这对于安全性要求极高的自动驾驶任务构成了不可接受的风险。
现有方法大多主要依赖模仿学习,导致模型往往最终学到次优的轨迹,模型只进行了记忆不会泛化。

我们提出了 ReCogDrive,一个端到端的自动驾驶系统。其核心创新在于将视觉-语言大模型(VLMs)的认知能力与强化学习增强的扩散规划器(diffusion planner)融合。不同于以往的单系统方法,ReCogDrive 结合了 VLMs 的泛化能力 与 扩散模型的轨迹生成能力,以预测平滑、舒适、安全的驾驶轨迹。具体而言,我们首先精心构建了一个包含 310 万条高质量驾驶问答对 的数据集(包括处理开源的驾驶数据集以及通过搭建的自动标注流水线进行生成),用于对 VLMs 进行驾驶领域预训练,使其深度理解真实驾驶场景。随后,我们引入一个基于扩散模型的规划器,它作为桥梁有效弥合了 VLMs 语言空间与车辆连续动作空间之间的鸿沟,将高层次的语义表征映射为连续的轨迹,同时保留了 VLMs 原有的泛化性。为进一步提升轨迹质量,我们创新性地通过 模拟器辅助的强化学习(NAVSIM) 对扩散模型进行强化微调。与仅能复制专家行为的模仿学习不同,强化学习使模型能够主动探索驾驶行为,在模拟器的反馈循环中迭代优化,最终生成更安全、更稳定、更舒适的驾驶轨迹。通过在 NAVSIM 基准上进行实验,我们验证了 ReCogDrive 的有效性,其达到了 89.6 PDMS 分数,超过之前纯视觉的方案 5.6 PDMS,充分证明了该系统的优越性能和现实可行性。
2. 相关工作
视觉语言模型在自动驾驶中的应用
最近许多研究探索将视觉语言模型(VLMs)的世界知识应用到自动驾驶场景中,解决现有模型的泛化性问题,当前现有方法可分为双系统与单系统两类架构:双系统方案(如 DriveVLM 和 Senna)将 VLMs 与端到端驾驶系统结合,通过 VLMs 生成低频轨迹或高层指令并由端到端模型输出最终轨迹;单系统方案中,GPT-Driver、EMMA 和 OpenEMMA 将轨迹规划任务重构为语言建模任务并引入思维链推理增强可解释性,Agent-Driver 集成工具库与认知记忆模块扩展大语言模型的感知-决策能力,OmniDrive、Orion 和 Atlas 通过引入 3D 视觉特征提取器提升模型 3D 感知能力,LMDrive 与 WiseAD 在闭环中验证 VLMs 的驾驶能力,Sce2DriveX 采用多模态联合学习优化 3D 感知。而我们的 ReCogDrive 融合 VLMs 与扩散模型,实现预测稳定、安全的轨迹。
扩散模型在具身智能和自动驾驶应用
扩散模型在具身智能与自动驾驶领域展现出独特优势。Diffusion Policy 将扩散模型扩展至机器人领域,有效处理多模态动作分布问题,π0、π0.5、GR00T-N1 等工作将 VLMs 与 Flow Matching 结合,保留 VLMs 泛化性的同时精准地预测未来工作轨迹;RDT-1B 提出首个面向双手操作的扩散基础模型,通过统一物理可解释动作空间解决异构机器人数据兼容性问题;DiffusionDrive、TrackVLA 等工作引入截断扩散策略,有效缓解模态坍塌并降低计算开销;Diffusion Planner 创新性地将规划任务重构为多轨迹生成问题,同时预测自车轨迹和其他车辆轨迹。我们也将扩散模型与多模态大模型结合,同时不同于以往方法只采用模仿学习训练,我们还引入强化学习对扩散模型进行训练,提升模型泛化性。
强化学习在自动驾驶中应用
强化学习(RL)作为一种关键技术,已在大型语言模型和游戏智能体中验证其有效性,并应用于自动驾驶特定场景。现有方法多在非真实感模拟器(如 CARLA)中直接学习控制空间策略。为弥合仿真与现实差距,RAD 在 3DGS 环境中训练端到端驾驶模型;CarPlanner 提出自回归多模态轨迹规划器,其 RL 策略在 nuPlan 数据集上超越模仿学习方法;最近由于 Deepseek-R1 的成功,GRPO 算法被引入规划领域——AlphaDrive 首次集成 GRPO 强化学习与驾驶多模态大模型,通过引入思考更准确地预测高阶指令;TrajHF 则构建人类反馈驱动的微调框架,实现生成轨迹与多样化驾驶偏好的对齐。而我们 ReCogDrive 通过仿真器协助的强化学习来让模型预测更安全、舒适的轨迹。
3.方法
ReCogDrive的结构主要由驾驶多模态大模型和基于扩散模型的规划器组成,推理时,将前视图以及导航指令,历史轨迹,任务指令输入给多模态大模型,多模态大模型输出隐藏特征作为Diffusion的Condition,Diffusion从噪声中逐步去噪生成最终轨迹。训练采用三阶段训练方式,首先,我们收集了一个包含310万条高质量问答对的驾驶数据集,用于训练视觉语言模型(VLMs),将驾驶特定的认知知识注入模型中。接着,我们将预训练的视觉语言模型与基于扩散的轨迹规划器结合,实现稳定的语言到动作映射,将潜在的语言空间转化为连续动作空间。最后,我们引入仿真辅助的强化学习,将通过多轨迹探索获得的泛化驾驶认知整合进扩散规划器中。

3.1 驾驶场景多模态大模型训练
由于通用大模型通常在互联网图像文本数据集上进行预训练,直接将多模态大模型应用于驾驶轨迹预测很困难,我们首先使用310万高质量驾驶数据集来让大模型适应驾驶场景。具体而言,我们从12个开源驾驶数据集收集数据,进行归一化处理,统一格式,重新标注回答,打分过滤低质量数据,最终得到230万条高质量驾驶问答对,我们还构建了一个自动标注流水线,结合 Qwen2.5-VL 和数据集标签,生成高质量的问答数据,涵盖场景描述、关键物体描述、规划解释等任务,此外,还融合 LLaVA 指令调优数据,以保持视觉语言模型的指令遵循能力。
我们采用 InternVL3-8B 作为基础模型,该模型采用“原生多模态预训练”范式,在多个基准测试中表现优异。每张图像被切分为 448×448 的图块及一个 448×448 的缩略图,并由经过 InternViT 编码。通过 pixel shuffle,将图像特征压缩为每个图块 256 个 Token,这些 Token 与文本 Token 拼接后输入大语言模型(LLM)。经过在310万条高质量驾驶问答对和指令遵循数据的混合数据集上微调后,模型能够以文本的形式生成轨迹 、驾驶解释 以及场景描述 等:
其中 和 为驾驶决策过程提供解释性。
3.2 基于扩散模型的轨迹规划器
虽然视觉语言大模型能够以自回归形式生成轨迹,但由于动作空间与语言空间的巨大差异,这种方法存在根本限制。一方面多模态大模型本身不擅长精确数值预测,另一方面,视觉语言大模型偶尔会出现幻觉现象,降低其在驾驶场景中的可靠性。受具身智能领域 π0、GR00T-N1 相关研究启发,我们采用基于扩散模型的轨迹规划器作为动作解码器,从高维特征空间解码出平滑轨迹。
给定一个服从高斯分布的噪声轨迹样本 ,其中 是时间维度,列维度对应平面坐标 和航向角 ,我们首先通过动作编码器 将其编码到高维特征空间。同时我们从视觉语言大模型中提取最终层隐藏特征 ,其中 是序列长度,通过均值池化操作,得到全局上下文信息的语义特征 。为了保证轨迹的平滑性,我们用编码器 将历史轨迹编码成高维嵌入 ,然后将这些嵌入在通道维度上拼接,作为 DiT 模块的输入:
DiT结构如上图所示,通过 AdaLayerNorm 融合自车状态和时间信息,**随后交叉注意力层融合视觉语言模型输出的隐藏特征 **,最后,动作解码器输出去噪的连续轨迹:
我们采用 DDPM 作为扩散策略,通过最小化扩散模型预测的噪声 与真实噪声 之间的均方误差,损失函数定义为:
其中 , 是条件变量。
3.3 仿真器辅助的强化学习

仅依赖模仿学习进行训练存在局限性,因为同一个场景可能存在很多条不相同的专家轨迹,导致优化到次优的轨迹,如图(a)所示,在一个交叉路口转弯场景中,存在多条专家轨迹,模型倾向于学习平均轨迹以实现全局最优,最终可能导致错误或不安全的行驶。
更符合人类学习驾驶的方式是让模型在一个驾驶环境中自主驾驶,模拟真实世界的学习过程,但构建具有交互式的真实场景闭环仿真器非常困难,因此我们使用 NAVSIM 非交互式的仿真器评估碰撞、舒适度等指标,来进行强化学习训练。 强化学习训练过程如下:
扩散策略 可视为从高斯噪声逐步去噪生成动作序列的马尔可夫决策过程,具体地,我们首先采样 条轨迹,获取其扩散去噪链:
其中 是去噪步骤总数,对于该链:
这些轨迹在 NAVSIM 仿真器中执行,仿真器根据碰撞情况、行驶区域合规性及驾驶舒适度给出驾驶评分(PDMS),作为奖励 。随后计算组内标准化优势:
扩散链中每一步的条件策略符合高斯分布:
其中 是模型预测的均值, 是固定协方差。
因此,完整链条 在策略 下的对数策略概率为:
最后,我们参考 REINFORCE、RLOO、GRPO 等算法计算策略损失,同时引入行为克隆损失以防止探索过程中模型崩溃。
其中,** 是用于缓解去噪初期不稳定性的折扣因子, 是行为克隆损失的权重, 是从参考策略 中采样的值,折扣因子和行为克隆损失权重对于模型训练效果都非常重要。**
4.实验

表1 展示了我们的方法与现有方法在 NAVSIM 数据集上的比较结果。ReCogDrive 实现了 89.6 的 PDMS,超过了 DiffusionDrive 等 SOTA 模型。而且,我们仅使用前视相机数据,ReCogDrive 依然比同时使用相机和激光雷达输入的 DiffusionDrive 和 WoTE 分别高出 1.5 和 1.2 的 PDMS。此外,相比我们复现的 InternVL3 和 QwenVL2.5 这两个直接在 NAVSIM 轨迹上训练的基线方法,ReCogDrive 的 PDMS 提高了 6.3,展示了我们方法的有效性。同时,它还比纯视觉方案的 SOTA 模型 PARA-Drive 高出 5.6 的 PDMS。

表2 展示了我们方法中各个关键组件的消融实验结果,当仅在NAVSIM轨迹数据上训练时,模型的PDMS为83.3,在此基础上,结合我们的大规模驾驶问答数据对视觉语言大模型进行驾驶场景适应后,PDMS提高了2.9,引入扩散模型规划器以实现连续轨迹预测,进一步提升了0.6的PDMS,最后,通过引入模拟器辅助的强化学习,PDMS提升至89.6,增加了2.8,验证了我们强化学习在提升驾驶安全性方面的有效性。

我们首先探索了驾驶问答数据的 scaling law,发现随着数据量的增加和数据质量的提升,模型的规划性能(PDMS)显著改善。同时,我们在强化学习阶段深入研究了三个关键超参数的作用。折扣因子 用于调控不同时间步对策略更新的贡献,较小的折扣值能够抑制早期高噪声步骤的干扰,从而增强训练稳定性并提升最终性能。行为克隆损失权重 用于平衡模仿学习与强化学习之间的关系,适当的设置能有效防止策略崩溃或过度模仿,确保策略优化空间。此外,最小扩散噪声 的设定影响生成轨迹的多样性和训练稳定性,适当的裁剪下限能鼓励策略探索而不导致训练不稳定。实验表明,这三项设置共同促进了更高效、安全的驾驶策略学习。

如图所示,可视化展示了ReCogDrive在 NAVSIM 上的感知与规划的能力。除了生成平滑的轨迹预测外,ReCogDrive 还能输出描述性的场景总结和高层次的驾驶指令。它能够准确识别关键物体,如出租车和红绿灯等。
5.结论
在本工作中,我们提出了 ReCogDrive,一个端到端的自动驾驶系统,集成了视觉语言大模型与基于扩散模型的轨迹规划器,并采用了三阶段的训练范式。首先,我们收集并过滤处理得到了一个包含310万条高质量驾驶问答对的数据集,将驾驶特定相关知识注入到预训练的视觉语言大模型中。其次,我们通过基于扩散模型的轨迹规划器,将离散的语言特征映射为平滑且连续的轨迹,同时保留视觉语言大模型的世界知识和驾驶知识。最后,我们通过强化学习增强扩散策略,以将通用的驾驶认知整合进扩散规划器中。在NAVSIM数据集上的实验证明,ReCogDrive在无激光雷达输入的条件下,实现了闭环评测指标的领先水平。
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com