GRPO并非最优解？EvaDrive：全新RL算法APO，类人端到端更进一步（新加坡国立&小米）

最新推荐文章于 2025-09-26 15:50:00 发布

原创最新推荐文章于 2025-09-26 15:50:00 发布 · 1.1k 阅读

CC 4.0 BY-SA版权

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享新加坡国立、清华和小米等团队最新的工作 - EvaDrive！全新强化学习算法APO，开闭环新SOTA。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群加入，也欢迎添加小助理微信AIDriver005

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Siwen Jiao等

编辑 | 自动驾驶之心

最近很多端到端方向的工作！今天自动驾驶之心为大家分享新加坡国立、清华和小米等团队最新的工作 - EvaDrive。这篇工作认为：

目前基于扩散模型的自车轨迹生成方法，其先生成后评测的框架一定程度阻碍了轨迹生成和质量评测的交互，对于自车轨迹规划而言并不友好；
另一方面，强化学习将多维偏好压缩为标量的奖励，模糊了模型学习中关键的trade-off，得到的奖励只是标量化的偏差，无法引导模型更好的优化。

为了解决这些问题，EvaDrive应运而生 - 一个全新的多目标强化学习框架，通过对抗性优化在轨迹生成和评测之间建立真正的闭环协同进化。EvaDrive将轨迹规划表述为多轮对抗游戏。在这个游戏中，分层生成器通过结合自回归意图建模以捕捉时间因果关系和基于扩散的优化以提供空间灵活性，持续提出候选路径。然后，一个可训练的多目标critic对这些proposal进行严格评测，明确保留多样化的偏好结构，而不将其压缩为单一的标量化偏差。这种对抗性迭代，在帕累托前沿选择机制的引导下，实现了多轮迭代优化，有效摆脱了局部最优，同时保持了轨迹多样性。在NAVSIM和Bench2Drive基准上的广泛实验表明，EvaDrive达到了SOTA，在NAVSIM v1上实现了94.9 PDMS（超过DiffusionDrive 6.8分，DriveSuprim 5.0分，TrajHF 0.9分），在Bench2Drive上实现了64.96驾驶分数。EvaDrive通过动态加权生成多样化的驾驶风格，而无需外部偏好数据，引入了一种闭环对抗框架，用于类人的迭代决策，提供了一种全新的无标量轨迹优化算法。

论文链接：https://arxiv.org/abs/2508.09158

引言

近年来，自动驾驶技术取得了显著进展。这些进展使车辆能够在日益复杂的环境中导航。尽管在感知、预测和规划等模块化方法上取得了实质性进展，但将这些能力整合成一个完整的驾驶行为仍然是一个挑战。这一整合挑战的核心是车辆轨迹规划，即生成可行、安全且高效的运动轨迹的过程。

传统的模块化方法提供了可解释性和可分解性，但容易在各个阶段累积误差。相比之下，端到端方法能够实现整体优化，但通常在泛化能力上表现不佳，并且难以对复杂驾驶决策中固有的多模态性进行建模。最近，生成-评测框架因其能够调和多样性与可控性而受到关注。轨迹生成器通过采用概率模型（如基于扩散的方法）来捕捉不确定性，从而合成多样化的轨迹候选。与此同时，评测器学习可微分的评分函数，根据预定义的多目标指标对这些轨迹进行排名。

尽管取得了近期进展，当前的生成-评测框架将规划和评测视为独立的、顺序的过程，缺乏类人决策所必需的闭环交互。相比之下，专业驾驶员会根据动态反馈持续生成、评测和优化动作。为了弥合这一差距，强化学习（RL）方法已成为有前景的替代方案。像TrajHF这样的方法使用GRPO，利用人类反馈来微调轨迹模型，而DPO风格的方法则通过成对偏好对齐来优化行为。然而，这些方法在自动驾驶领域面临着关键的局限性。首先它们依赖于人工标注的成对排序，这会引入主观性和不一致性，可能导致策略错位。其次，它们起源于语言任务，导致在连续、高维的驾驶场景中出现领域不匹配。最关键的是，一步优化缺乏安全、自适应规划所必需的迭代优化过程——这限制了在安全关键环境中的鲁棒性。

事实上，人类驾驶员会通过内部想象和与环境的交互，持续评测和优化轨迹决策，在做出最终行动之前会推理多个备选方案。这一观察引出了一个关键问题：自动驾驶车辆能否利用多模态轨迹提案和多轮优化来增强规划的鲁棒性，并与细致入微的人类偏好保持一致？我们以肯定的答案提出了EvaDrive，这是一种新颖的框架，它将轨迹规划重新表述为一个具有真正闭环交互的多目标强化学习问题。

与之前将多维偏好压缩为标量奖励的强化学习方法不同，EvaDrive采用了一个可训练的多目标奖励模型，该模型保留了安全、舒适和效率等多样化偏好结构，避免了标量化偏差。我们的方法基于两个关键见解：自动驾驶提供了自然可量化的指标，避免了GRPO所需的带噪成对排名；可行的轨迹构成了一个帕累托non-dominated集 set，其中各目标之间存在权衡。传统的标量化将这些目标压缩为单一指标，模糊了最优解并降低了策略的多样性。EvaDrive利用分层生成器和多目标critic之间的对抗性协同进化，实现多轮迭代优化，既能摆脱局部最优，又能保留强化学习的试错特性。主要贡献如下：

分层规划器：结合自回归意图建模（以捕捉时间因果关系）和基于扩散的优化（以提供空间灵活性），实现精确的轨迹建模。
多轮优化机制：连接轨迹生成和评测过程，通过动态反馈实现持续适应，并利用帕累托前沿选择机制巧妙地避免局部最优。
对抗性策略优化：通过生成器和评测器之间的动态博弈，不仅驱动轨迹质量的持续提升并有效摆脱局部最优，还能通过调整多个优化目标的动态权重比，生成不同风格的轨迹。

问题定义

自动驾驶中的强化学习

强化学习（RL）旨在优化一个策略以最大化期望累积奖励：

其中和分别表示状态和动作。在Actor-Critic框架中，提出动作（Actor），而一个奖励函数对其进行评测（Critic）。对于自动驾驶，规划未来的轨迹，编码场景上下文，代表自车轨迹。奖励反映了驾驶特定的目标，如安全性、舒适性和交通规则遵守情况。

多目标优化

传统的强化学习方法（例如DPO/GRPO）将复杂的决策简化为标量奖励最大化，这对于自动驾驶来说是不够的，因为自动驾驶需要联合优化相互冲突的目标：安全性、舒适性、效率和规则遵守。

为了捕捉这种多面性，我们将驾驶奖励表示为一个目标向量：

其中每个对应一个不同的目标。学习问题变为最大化期望的向量值回报：

对于相互冲突的目标（例如，安全 vs. 效率），标量化会掩盖关键的权衡。相反，我们寻求帕累托最优解——即不存在其他解能在不损害至少一个其他目标的情况下改进任何一个目标——这些解构成了多目标优化的目标帕累托前沿。

重新引入奖励模型

为了避免隐式或过度简化奖励的局限性，我们采用了一种类似于RLHF的奖励学习方法，引入一个可学习的奖励模型来预测，其训练过程如下：

偏好数据：真实的来源于基于仿真的轨迹指标（例如，障碍物接近度代表安全，急动度代表舒适）。
奖励模型训练：通过均方误差（MSE）进行监督学习以匹配真实值：其中是预测的奖励向量。
策略优化：训练好的作为环境反馈的可微分代理，使得策略可以通过多目标信号进行更新。

算法详解

在多目标强化学习的框架内，我们现在详细介绍我们方法的核心组件，包括轨迹生成和评测模块（Actor和Critic）、多轮优化机制以及对抗性偏好优化范式。

作为Actor的轨迹规划器

我们提出了一种轻量级的结构化轨迹规划器，称为分层建模规划器，作为我们强化学习框架中的Actor。该Actor集成了两个核心组件：一个自回归意图生成器和一个基于扩散的优化器，旨在解决规划中的两个关键挑战：时间因果关系建模以及在不确定性下对全局空间轨迹进行精细化优化。

首先，提取当前自车状态，并基于此通过一个多层感知机（MLP）生成一组初始候选序列（其中表示序列数量，表示每序列的姿态数量，3对应每个姿态的xy坐标和偏航角）。通过一个冻结的视觉主干网络提取图像特征（为空间分辨率，为特征维度），作为全局环境上下文。

阶段一：自回归意图建模 该阶段使用多头交叉注意力（MHCA）机制对时间上连贯的运动意图进行建模，记为以强调其时间特异性。形式上，查询向量直接采用初始候选序列；键向量和值向量通过连接上下文特征构建，并通过可学习的线性变换投影到统一维度：

其中表示历史轨迹特征（为历史时间步数，为特征维度）。时间交叉注意力操作定义为：

其中表示作为自回归优化候选的时间优化意图特征。一个关键设计是矩形注意力掩码，它将（大小为）与（大小为）对齐，通过只允许中的每个时间步关注中当前和过去元素来强制执行时间因果关系。此约束对于学习时间依赖的运动模式（例如，转弯前减速）和保持动作的因果顺序至关重要。

阶段二：基于扩散的优化 尽管自回归模块捕捉了时间连贯性，但它在不确定性建模和空间灵活性方面能力不足。为了解决这个问题，我们使用去噪扩散隐式模型（DDIM）向前向注入噪声，生成在扩散步的随机输入：

其中和是预计算的DDIM系数，是标准正态噪声向量。这些带噪声的候选通过一个第二阶段模块进行优化，该模块包含空间交叉注意力，后接一个轻量级的Transformer解码器。空间交叉注意力操作定义为：

其中表示空间增强特征。解码器输出去噪后的候选特征：

最终轨迹通过一个MLP解码：

得益于自回归特征的引导，我们的去噪器通过单步去噪实现了高效的轨迹生成，消除了传统扩散模型中多轮推理的需要。这显著提高了计算效率，满足了实时部署的延迟约束。

作为Critic的奖励模型

为了实现奖励引导的学习，我们引入一个奖励模型作为Critic，用于评测预测轨迹并为规划器提供多目标反馈。与传统的标量奖励函数不同，它提供结构化的高维监督，匹配驾驶的多目标本质。

给定第个预测轨迹，我们首先通过时间最大池化聚合其时间规划特征（例如，第二阶段输出的去噪锚点特征）：

聚合后的捕捉了轨迹的全局语义意图，输入一个MLP，该MLP输出个标量奖励分量。所有轨迹的这些分量组成的向量共同构成了之前定义的驾驶奖励向量：

值得注意的是，轨迹评测是多目标的：Critic独立地估计每个目标（而非一个标量），保留了奖励的多样性，避免了过早聚合，并能在后续优化中实现有效的帕累托前沿探索。

多轮优化机制

传统的自动驾驶规划单步优化最大化即时奖励，但缺乏反馈回路。虽然高效，但这种单向方法无法支持通过试错进行的迭代优化，尽管有明确定义的奖励函数，但在安全关键任务中仍会损害可靠性。

为了解决这个问题，我们提出了一种多轮轨迹优化机制（算法1），将现有的多目标优化框架扩展为一个迭代的强化学习风格过程。具体来说，我们定义了总共轮优化，索引为。在每一轮中，Actor策略根据当前规划状态以及（如果适用）前一轮的引导轨迹生成一组候选轨迹。在完成所有轮后，我们从最后一组候选中选择最终输出轨迹。

我们通过使用多目标奖励评测最终输出轨迹来定义整体训练目标：

其中表示最终规划状态，从候选集中选出。这里，表示一个任务级评测函数，用于衡量在最终上下文中完成轨迹的整体质量。

然而，在训练过程中，我们需要对每一轮的候选轨迹进行更细粒度和中间的评测。为此，我们定义了一个轮级多目标奖励函数 ，它与具有相同的维度，但反映了局部的、每轮的轨迹质量。该函数充当一个向量值Critic，为每个轨迹输出个标量奖励分量。

在每一轮中，优化过程如下进行：

生成候选轨迹：Actor根据当前规划上下文生成一组候选轨迹。
评测奖励向量：对于每个轨迹，Critic模型评测其多维奖励向量：其中是奖励维度的数量（例如，安全、效率、舒适）。标量函数代表第个奖励分量。由于这些目标通常存在权衡，我们避免奖励标量化以保持候选行为的多样性。
提取帕累托前沿：我们从中提取帕累托前沿，定义为所有非支配轨迹的集合：其中表示轨迹支配，即它在所有奖励维度上表现至少一样好，并且在至少一个维度上严格更好。
采样引导轨迹：为了促进探索并减轻对狭窄解的过拟合，我们从帕累托前沿中均匀采样个引导轨迹：这些轨迹用于在下一轮中调节Actor策略：
更新规划状态（可选）：可以根据所选轨迹或状态转移函数更新规划状态，从而在动态环境中实现自适应规划。

该机制通过帕累托引导采样和迭代策略优化实现了原则性的多目标规划，支持现实世界的自动驾驶。

对抗性策略优化（APO）

为了实现偏好感知的轨迹优化，我们提出了对抗性策略优化（APO），这是一种将策略训练表述为带有对抗性奖励学习的多目标优化问题的学习范式。该方法借鉴了对抗性训练原理，同时专门解决了自动驾驶评测任务的多维性质。

给定一个轨迹策略和一个可学习的多目标奖励模型，它输出一个奖励向量：

其中表示不同的驾驶性能指标数量（例如，安全、舒适、效率），我们定义APO的核心目标。

令表示专家演示数据集。对于每个目标维度，我们定义：

整体优化是一个向量值目标：

在这里，策略生成器（）旨在生成能最大化所有维度奖励预测的轨迹，而奖励模型（）则学习为专家演示分配比生成轨迹更高的奖励，从而为生成器提供梯度，引导其向专家般的行为发展。

加权标量化多目标优化 该优化解决了一个多目标问题，其中每个奖励分量对应一个不同的驾驶性能指标。为了使问题在计算上可处理，我们采用加权标量化（Zadeh 1963），使用一个偏好向量，满足且。标量化目标为：

的不同选择能够生成具有不同行为特征的轨迹。

生成器优化（）生成器使用策略梯度进行更新：

参数更新为：

这种加权方法将多目标优化转换为单目标问题，同时通过实现了多样化的轨迹风格。

奖励模型优化（）奖励模型通过最小化以下目标来训练，以区分生成轨迹和专家轨迹：

参数更新为：

这确保了奖励模型在所有目标上保持平衡的判别能力，防止生成器在单一维度上陷入局部最优。

训练目标

总训练损失促进了生成器（Actor ）和多目标奖励模型（Critic ）之间的对抗性交互和联合优化：

这种损失公式使Actor能够生成高质量、偏好对齐的轨迹，同时Critic不断精化其奖励评测，促进它们的协同进化。详细的组件定义见附录。

实验结果分析

实现细节

实验在NAVSIM上进行，包括使用真实世界数据在NAVSIM v1（PDMS指标）和v2（EPDMS指标）上的开环评测，以及通过CARLA进行的闭环仿真（Bench2Drive）。我们的模型使用ResNet34作为主干网络，MLP作为自车状态编码器和奖励模型，并采用三摄像头设置。训练在4块NVIDIA H20 GPU上进行，使用Adam优化器（每块GPU的batch大小为8，学习率为7.5 × 10⁻⁵），在生成器和判别器之间交替进行5个epoch的训练周期，共进行30个epoch。数据集和指标的详细信息见附录。

定量与定性比较

定量分析。表1显示，EvaDrive在NAVSIM v1上达到了最先进的水平，实现了94.9 PDMS——超过了DiffusionDrive 6.8分，DriveSuprim 5.0分，以及TrajHF 0.9分，且不依赖外部偏好数据。通过调整权重向量，我们实现了多样化的驾驶风格，包括保守型（偏好安全，低EP）和激进型（高EP，主动行为）。在CARLA的Bench2Drive上，EvaDrive获得了64.96的驾驶分数（表2），验证了其闭环能力。

定性分析。图4a比较了来自真实轨迹（GT）、DiffusionDrive和EvaDrive的轨迹。与基线固定的驾驶行为不同，EvaDrive通过调整能够在保守和激进模式之间实现平滑过渡，而无需手动规则。图4b进一步展示了帕累托前沿的大小和分布在迭代过程中的演化，突显了其在多目标空间中探索多样化、高质量解的能力。

路线图式消融实验

为了系统地评测EvaDrive中的关键组件，我们进行了一项路线图式消融实验。从一个基本的模仿学习基线（S0）开始，我们逐步引入了两阶段生成器、多目标奖励模型、多轮优化、帕累托前沿引导和对抗性偏好优化。表3总结了每个模块在NAVSIM v1基准上的规划性能影响。附录中提供了额外的消融结果和分析。

S1：引入两阶段生成器显著提高了轨迹的平滑性和空间多样性（PDMS提升+5.0）。自回归阶段捕捉了时间意图，而基于扩散的优化器增强了空间灵活性。
S2：在S1的基础上，我们引入了一个多目标奖励模型，将多样化的标准（如碰撞、加速度、自车进展）编码为显式信号。这使得在舒适度和效率之间能够进行细粒度的权衡，将PDMS提升至91.7。
S3：添加多轮优化通过历史反馈实现了迭代优化，通过持续校正增强了鲁棒性，减少了局部最优（相比S2，PDMS提升+2.0，达到93.7）。
S4：帕累托前沿引导在各目标之间保持了最优的权衡，促进了多样化且高质量的解决方案，实现了94.2的PDMS。
S5：对抗性偏好优化通过训练奖励感知的判别器，利用反馈来优化生成器，从而提升了策略质量，达到了最高的94.9 PDMS。

结论

本文提出了EvaDrive，这是一种通过对抗性协同进化将生成与评测统一起来的多目标强化学习规划器。该方法借鉴人类决策，利用多轮帕累托优化和一个结构化的非标量奖励模型，在避免标量化偏差和标注噪声的同时保持了轨迹多样性。通过结合分层生成器、基于扩散的优化器和判别器，EvaDrive能够对轨迹语义、多样性和安全性进行精确控制。在NAVSIM和Bench2Drive上的评测表明，EvaDrive实现了94.9 PDMS和64.96驾驶分数，使EvaDrive成为首个在开环和闭环设置中均能实现无标量化、偏好感知轨迹优化的闭环规划器。

更多可视化：

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com