点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享华中科大&地平线机器人最新的工作!AlphaDrive:首创VLM强化学习框架,破解自动驾驶长尾难题!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>点击进入→自动驾驶之心『强化学习端到端』技术交流群
论文作者 | Bo Jiang等
编辑 | 自动驾驶之心
写在前面 & 笔者的个人理解
OpenAI o1 和 DeepSeek R1 在数学和科学等复杂领域达到了或甚至超越了人类专家的水平,强化学习(RL)和推理在其中发挥了关键作用。在自动驾驶领域,最近的端到端模型极大地提高了规划性能,但由于常识和推理能力有限,仍然难以应对长尾问题。
一些研究将视觉-语言模型(VLMs)集成到自动驾驶中,但它们通常依赖于预训练模型,并在驾驶数据上进行简单的监督微调(SFT),没有进一步探索专门为规划设计的训练策略或优化方法。本文提出了 AlphaDrive,一个针对自动驾驶中 VLMs 的 RL 和推理框架。AlphaDrive 引入了四个基于 GRPO 的 RL 奖励,专门用于规划,并采用结合 SFT 与 RL 的两阶段规划推理训练策略。结果表明,与仅使用 SFT 或不进行推理相比,AlphaDrive 显著提升了规划性能和训练效率。此外,我们还兴奋地发现,在 RL 训练之后,AlphaDrive 展现出了一些新兴的多模态规划能力,这对提高驾驶安全性和效率至关重要。据我们所知,AlphaDrive 是首个将基于 GRPO 的 RL 与规划推理集成到自动驾驶中的框架。代码将被发布以促进未来的研究。
论文链接:https://arxiv.org/abs/2503.07608
代码链接:https://github.com/hustvl/AlphaDrive
引言
近年来,自动驾驶技术取得了快速进展,端到端自动驾驶成为最具代表性的模型之一。这些模型以传感器数据为输入,利用可学习的神经网络规划车辆未来轨迹。得益于大规模驾驶演示数据,端到端模型通过扩展训练数据和增加模型参数持续改进规划能力。然而,由于其黑箱特性与常识推理能力的缺失,端到端模型在处理复杂和长尾驾驶场景时仍面临重大挑战。例如,当前方车辆携带交通锥行驶时,端到端模型可能无法理解前车与交通锥的关系,误判道路施工不可通行,从而做出错误的制动决策。因此,仅依赖端到端模型实现高级别自动驾驶仍存在显著局限性。
随着GPT的成功,大型语言模型(LLMs)展现出卓越的理解与推理能力,并逐步从单模态文本理解扩展到多模态视觉-语言处理。视觉-语言模型(VLMs)的常识与推理能力为缓解端到端模型的缺陷提供了潜在解决方案。
近期,OpenAI o1通过集成推理技术,在编程等领域达到甚至超越人类专家水平。DeepSeek R1则利用强化学习(RL),不仅展现出“涌现能力”并取得顶尖性能,且训练成本显著低于其他模型。这些进展凸显了推理技术与强化学习在大型模型开发中的巨大潜力。
现有将VLMs应用于自动驾驶的研究可分为两类:
驾驶场景理解:利用VLMs解析场景语义;
规划决策:部分研究将VLMs作为端到端系统,直接根据输入图像生成轨迹。然而,与专为轨迹规划设计的端到端模型不同,VLMs的输出空间为离散语言符号,难以直接生成精确数值预测,可能导致性能不足或安全隐患。
部分研究尝试通过自然语言描述高层动作(如“减速右转”)规避上述问题,但仍缺乏对训练方法的深入探索。多数工作仅依赖监督微调(SFT),忽视了不同训练策略对规划性能与训练效率的影响。
本文探讨以下核心问题:
如何将强化学习与推理技术(在通用大模型中取得显著成功的方法)应用于自动驾驶规划,以提升VLMs的性能并降低训练成本?
通过初步实验,我们发现直接应用现有RL与推理技术效果欠佳,主要归因于以下三方面:
奖励设计不匹配:通用任务的RL奖励(如视觉计数任务的正确性判断)难以适应规划需求。自动驾驶中,不同驾驶行为的重要性差异显著(如制动与加速),需设计权重差异化的奖励机制。
多解性挑战:规划问题通常存在多个合理解(如直行道路可选择匀速或加速),需避免强制对齐单一真值标签。
推理数据匮乏:自动驾驶缺乏现成的规划推理数据集,人工标注成本高昂,直接应用现有推理技术困难。
针对上述挑战,本文提出AlphaDrive——首个将基于GRPO的强化学习与规划推理集成到自动驾驶的框架。具体贡献如下:
GRPO强化学习策略:采用Group Relative Policy Optimization(GRPO),相比PPO和DPO,其组间相对优化策略更适配规划的多解性,实验表明GRPO训练的模型展现出涌现的多模态规划能力。
四维奖励设计:
-
规划准确性奖励:基于F1分数评估横向(方向)与纵向(速度)决策一致性;
动作加权奖励:根据安全关键性为不同动作分配权重(如制动权重高于匀速);
规划多样性奖励:鼓励生成多样化可行解,防止模式坍缩;
格式规范奖励:强制输出结构化格式(如
<answer>标签),提升训练稳定性。
两阶段训练范式:
-
阶段一(SFT知识蒸馏):利用大模型(如GPT-4o)生成高质量规划推理数据,通过SFT实现推理过程蒸馏;
阶段二(RL探索):在SFT基础上进行RL微调,缓解早期训练的不稳定性和幻觉问题。
实验表明,与仅使用SFT或无推理的模型相比,AlphaDrive在规划准确率上提升25.52%,且在仅20%训练数据下性能超越SFT模型35.31%。此外,RL训练后模型涌现出多模态规划能力(如复杂场景生成多个合理决策),为提升驾驶安全与效率提供了新方向。据我们所知,AlphaDrive是首个将GRPO-based RL与规划推理结合的自动驾驶框架,代码将开源以推动后续研究。
相关工作回顾
视觉-语言模型
自GPT发布以来,大型模型的能力已从单模态扩展到多模态。大型视觉-语言模型(VLMs)在视觉理解与推理任务中展现出卓越性能。早期研究尝试将视觉模型与大型语言模型(LLMs)结合:Flamingo通过视觉编码器处理视觉信号,并在LLM解码器中引入注意力层以实现跨模态交互;BLIP提出Q-Former架构和跨模态对比学习任务,以桥接视觉编码器与LLMs;LLaVA采用简单的MLP作为视觉与语言模块的连接器,仅用有限数据即实现强大的视觉理解能力。QwenVL系列进一步优化了视觉模块,支持高分辨率和动态分辨率图像输入,并在多语言任务和空间感知中表现优异。
强化学习与推理
自回归学习是LLMs的主流预训练策略,而强化学习(RL)与推理技术进一步增强了模型能力。例如,GPT采用基于人类反馈的强化学习(RLHF),将人类意图和偏好融入训练过程;直接偏好优化(DPO)通过优化偏好反馈提升模型性能。Group Relative Policy Optimization(GRPO)引入组间相对优化策略,通过多组输出的相对优劣提升训练稳定性和效果。
DeepSeek R1基于GRPO训练时经历了“顿悟时刻”(Aha Moment),模型在无显式引导下自主增加问题思考并重新评估初始方案,展示了RL在推动模型从模仿转向涌现智能中的潜力。本实验中,我们同样观察到,经过GRPO-based RL训练后,AlphaDrive展现出多模态规划能力,可生成多组合理驾驶方案,为提升驾驶安全与效率提供了可能。
在推理领域,Chain-of-thought通过分步分解复杂问题显著提升解决能力。OpenAI o1基于该方法,结合推理时扩展(如蒙特卡洛树搜索MCTS和集束搜索Beam Search),在科学和编程等需复杂推理的领域取得突破,表明除扩展模型参数与数据外,提升推理时计算量亦是重要方向。
自动驾驶规划
规划是自动驾驶的核心任务。早期基于规则的算法通用性与效率受限。近期,端到端模型通过统一神经网络直接从传感器数据输出轨迹或控制信号,利用大规模驾驶演示数据驱动训练,显著提升规划性能。然而,端到端模型因缺乏常识与推理能力,仍难以应对长尾场景。
VLM在自动驾驶中的应用
VLM的常识与推理能力可有效弥补端到端模型的不足。在机器人领域,视觉-语言-动作(VLA)模型通过理解指令执行复杂动作,VLM生成规划指令后由动作模型转换为控制信号。
自动驾驶领域亦有相关探索:DriveGPT4以视频为输入,直接预测控制信号;ELM利用跨领域视频数据提升VLM在驾驶任务中的性能;OmniDrive提出稀疏3D令牌表征场景,输入VLM进行理解与规划。
部分研究结合VLM与端到端模型:DriveVLM首次将VLM用于低频轨迹预测,端到端模型生成高频轨迹;Senna提出VLM负责高层规划、端到端模型执行低层轨迹预测的框架。此外,多数据集与基准推动了VLM在自动驾驶中的应用。然而,现有工作多依赖预训练模型与简单SFT,缺乏针对规划的训练策略探索,需进一步将RL与推理技术引入自动驾驶领域。
详解AlphaDrive
概述
AlphaDrive 是专为自动驾驶规划设计的视觉-语言模型(VLM)。与以往仅依赖监督微调(SFT)的方法不同,我们探索了强化学习(RL)与推理技术的结合,以更好地适配驾驶规划的独特特性:
不同驾驶行为的重要性差异(如制动比匀速行驶更关键);
多解性(如直行道路可选择加速或保持速度);
规划推理数据的匮乏。
为此,我们提出四个基于GRPO的RL奖励函数,并设计结合SFT与RL的两阶段规划推理训练策略。实验表明,与仅使用SFT或无推理的模型相比,AlphaDrive在规划性能与训练效率上均显著提升。以下详细阐述各模块的设计。
面向规划的强化学习
强化学习算法
当前主流RL算法包括PPO、DPO和GRPO。给定查询 ,GRPO从旧策略 中采样一组输出 <
AlphaDrive:VLM+RL破解自动驾驶长尾难题

最低0.47元/天 解锁文章
493

被折叠的 条评论
为什么被折叠?



