首创GRPO方案！AlphaDrive：VLM+RL破解自动驾驶长尾难题

AlphaDrive：VLM+RL破解自动驾驶长尾难题

最新推荐文章于 2025-08-15 07:31:45 发布

原创

最新推荐文章于 2025-08-15 07:31:45 发布 · 1.4k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#自动驾驶 #人工智能 #机器学习

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享华中科大&地平线机器人最新的工作！AlphaDrive：首创VLM强化学习框架，破解自动驾驶长尾难题！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『强化学习端到端』技术交流群

论文作者 | Bo Jiang等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

OpenAI o1 和 DeepSeek R1 在数学和科学等复杂领域达到了或甚至超越了人类专家的水平，强化学习（RL）和推理在其中发挥了关键作用。在自动驾驶领域，最近的端到端模型极大地提高了规划性能，但由于常识和推理能力有限，仍然难以应对长尾问题。

一些研究将视觉-语言模型（VLMs）集成到自动驾驶中，但它们通常依赖于预训练模型，并在驾驶数据上进行简单的监督微调（SFT），没有进一步探索专门为规划设计的训练策略或优化方法。本文提出了 AlphaDrive，一个针对自动驾驶中 VLMs 的 RL 和推理框架。AlphaDrive 引入了四个基于 GRPO 的 RL 奖励，专门用于规划，并采用结合 SFT 与 RL 的两阶段规划推理训练策略。结果表明，与仅使用 SFT 或不进行推理相比，AlphaDrive 显著提升了规划性能和训练效率。此外，我们还兴奋地发现，在 RL 训练之后，AlphaDrive 展现出了一些新兴的多模态规划能力，这对提高驾驶安全性和效率至关重要。据我们所知，AlphaDrive 是首个将基于 GRPO 的 RL 与规划推理集成到自动驾驶中的框架。代码将被发布以促进未来的研究。

论文链接：https://arxiv.org/abs/2503.07608
代码链接：https://github.com/hustvl/AlphaDrive

引言

近年来，自动驾驶技术取得了快速进展，端到端自动驾驶成为最具代表性的模型之一。这些模型以传感器数据为输入，利用可学习的神经网络规划车辆未来轨迹。得益于大规模驾驶演示数据，端到端模型通过扩展训练数据和增加模型参数持续改进规划能力。然而，由于其黑箱特性与常识推理能力的缺失，端到端模型在处理复杂和长尾驾驶场景时仍面临重大挑战。例如，当前方车辆携带交通锥行驶时，端到端模型可能无法理解前车与交通锥的关系，误判道路施工不可通行，从而做出错误的制动决策。因此，仅依赖端到端模型实现高级别自动驾驶仍存在显著局限性。

随着GPT的成功，大型语言模型（LLMs）展现出卓越的理解与推理能力，并逐步从单模态文本理解扩展到多模态视觉-语言处理。视觉-语言模型（VLMs）的常识与推理能力为缓解端到端模型的缺陷提供了潜在解决方案。

近期，OpenAI o1通过集成推理技术，在编程等领域达到甚至超越人类专家水平。DeepSeek R1则利用强化学习（RL），不仅展现出“涌现能力”并取得顶尖性能，且训练成本显著低于其他模型。这些进展凸显了推理技术与强化学习在大型模型开发中的巨大潜力。

现有将VLMs应用于自动驾驶的研究可分为两类：

驾驶场景理解：利用VLMs解析场景语义；
规划决策：部分研究将VLMs作为端到端系统，直接根据输入图像生成轨迹。然而，与专为轨迹规划设计的端到端模型不同，VLMs的输出空间为离散语言符号，难以直接生成精确数值预测，可能导致性能不足或安全隐患。

部分研究尝试通过自然语言描述高层动作（如“减速右转”）规避上述问题，但仍缺乏对训练方法的深入探索。多数工作仅依赖监督微调（SFT），忽视了不同训练策略对规划性能与训练效率的影响。

本文探讨以下核心问题：
如何将强化学习与推理技术（在通用大模型中取得显著成功的方法）应用于自动驾驶规划，以提升VLMs的性能并降低训练成本？

通过初步实验，我们发现直接应用现有RL与推理技术效果欠佳，主要归因于以下三方面：

奖励设计不匹配：通用任务的RL奖励（如视觉计数任务的正确性判断）难以适应规划需求。自动驾驶中，不同驾驶行为的重要性差异显著（如制动与加速），需设计权重差异化的奖励机制。
多解性挑战：规划问题通常存在多个合理解（如直行道路可选择匀速或加速），需避免强制对齐单一真值标签。
推理数据匮乏：自动驾驶缺乏现成的规划推理数据集，人工标注成本高昂，直接应用现有推理技术困难。

针对上述挑战，本文提出AlphaDrive——首个将基于GRPO的强化学习与规划推理集成到自动驾驶的框架。具体贡献如下：

GRPO强化学习策略：采用Group Relative Policy Optimization（GRPO），相比PPO和DPO，其组间相对优化策略更适配规划的多解性，实验表明GRPO训练的模型展现出涌现的多模态规划能力。
四维奖励设计：
- 规划准确性奖励：基于F1分数评估横向（方向）与纵向（速度）决策一致性；
- 动作加权奖励：根据安全关键性为不同动作分配权重（如制动权重高于匀速）；
- 规划多样性奖励：鼓励生成多样化可行解，防止模式坍缩；
- 格式规范奖励：强制输出结构化格式（如<answer>标签），提升训练稳定性。
两阶段训练范式：
- 阶段一（SFT知识蒸馏）：利用大模型（如GPT-4o）生成高质量规划推理数据，通过SFT实现推理过程蒸馏；
- 阶段二（RL探索）：在SFT基础上进行RL微调，缓解早期训练的不稳定性和幻觉问题。

实验表明，与仅使用SFT或无推理的模型相比，AlphaDrive在规划准确率上提升25.52%，且在仅20%训练数据下性能超越SFT模型35.31%。此外，RL训练后模型涌现出多模态规划能力（如复杂场景生成多个合理决策），为提升驾驶安全与效率提供了新方向。据我们所知，AlphaDrive是首个将GRPO-based RL与规划推理结合的自动驾驶框架，代码将开源以推动后续研究。