CVPR‘25端到端冠军方案！GTRS：可泛化多模态端到端轨迹规划（英伟达&复旦）-优快云博客

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享英伟达、复旦大学最新的工作！GTRS：可泛化的多模式端到端轨迹规划!如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

论文作者 | Zhenxin Li等

编辑 | 自动驾驶之心

论文链接：https://arxiv.org/abs/2506.06664

Github：https://github.com/NVlabs/GTRS

NVIDIA技术博客：https://blogs.nvidia.com/blog/auto-research-cvpr-2025/?ncid=so-nvsh-677066

CVPR 2025 Autonomous Grand Challenge: https://opendrivelab.com/legacy/challenge2025/index.html

端到端自动驾驶挑战赛背景

NAVSIM v2 端到端自动驾驶挑战赛是 CVPR 2025 Autonomous Grand Challenge 的重要赛事之一，延续了对端到端自动驾驶模型可扩展性与泛化能力的深入评估。今年的比赛进一步升级，所使用的测试集中包含了困难的驾驶场景以及这些场景在 3D 渲染下的延申，重点考验模型在复杂驾驶情境下的决策鲁棒性与安全性。

图片 1 NAVSIM v2 挑战赛排行榜

在今年的比赛中，由我们 NVIDIA、复旦大学组成的团队再度获得了比赛的冠军🏆。

从模仿学习到基于规则的知识蒸馏

图片 2 基于模仿学习的扩散模型

在介绍我们的方案之前，我们先以扩散模型为例，简要回顾端到端自动驾驶学习中的模仿学习范式。扩散模型近年来在端到端自动驾驶中获得广泛应用，其核心思想是从以环境特征为条件，通过加入噪声与逐步去噪的过程生成多模态的未来轨迹候选，具备较强的轨迹多样性与拟合能力。但这类基于模仿学习范式的核心问题在于其过度依赖人类演示数据。虽然它可以通过模仿人类行为达到较低的误差（如 L2 距离），但由于只能学习人类展示过的行为轨迹，它在面对未复杂驾驶情境时，难以做出鲁棒的决策，同时在未见过的新场景下的泛化能力也存在不足。

图片 3 Hydra-MDP：基于规则的知识蒸馏范式

在去年的比赛中，我们提出了 Hydra-MDP 端到端自动驾驶框架。该框架不再依赖单一路径的模仿，而是使用大量多模式的轨迹候选，并通过与环境的交互获得基于规则的奖励信号。我们使用这些奖励来训练出一个能够对不同规则维度进行打分的轨迹评分模型。相比于仅依赖人类演示的模仿学习方法，该框架更强调轨迹与环境之间的反馈关系，能够在复杂场景中更好评估和选择安全的驾驶行为，从而实现更高的鲁棒性和安全性。

GTRS 框架

为应对挑战，我们提出了 GTRS（Generalized Trajectory Scoring）框架，融合了动态生成与静态词表两类轨迹评分策略，全面提升端到端自动驾驶模型的泛化与判别能力。 GTRS 框架包含三大核心组件：

（1）基于扩散模型的轨迹生成器，提供丰富细致的动态轨迹候选；（2）超密集轨迹词表结合 Dropout 泛化策略，强化评分器对多样轨迹分布的适应性；（3）传感器视角扰动与精细化评分模块，增强对长尾场景与微小行为差异的辨识能力。

基于扩散模型的轨迹生成

图片 4 轨迹评分器与扩散模型的结合

在 Hydra-MDP 使用的静态轨迹词表基础上，我们引入了由扩散模型动态生成的、与当前驾驶场景高度相关的轨迹候选。这些动态轨迹能够弥补静态词表在行为多样性上的不足，通过融合静态与动态轨迹，并使用我们的轨迹评分器进行统一评估，该混合策略显著提升了轨迹空间的覆盖能力。在实际测试中，这一方法在 EPDMS 指标上带来了+1.1%的性能提升，验证了扩散轨迹对静态词表的有效补充作用。这也从侧面说明轨迹评分器有良好的泛化性，能够处理训练过程中未见过的扩散模型轨迹。

轨迹评分器：GTRS-Dense

图片 5 GTRS-Dense 架构

除了轨迹生成端，我们在轨迹评分端使用 GTRS-Dense 模型进行更有效的轨迹评估。该模型在训练时使用了一个超密集的轨迹集合，以提升评分器对多样轨迹分布的泛化能力，使其具备更强的轨迹评分能力。为了防止模型过拟合特定的轨迹模式，我们在训练过程中引入了随机 Dropout 策略——每次仅保留一半的轨迹进行训练，从而实现有效的正则化。实验结果表明，该 Dropout 策略带来了+1.4% EPDMS的性能提升，显著增强了模型在不同场景下的泛化表现。

轨迹评分器：GTRS-Aug

图片 6 GTRS-Aug 架构，来自于我们的新工作 DriveSuprim

为了进一步提升模型的泛化性与鲁棒性，我们在训练阶段引入了传感器增强与轨迹精细化评分策略。具体而言，我们通过模拟真实与仿真环境之间的视角变化等扰动，构造传感器数据的分布偏移。这些增强操作可以有效避免评分器对特定视觉模式的过拟合，提升其在不同视觉条件下的鲁棒性。此外，我们还引入了一个精细化的轨迹评分机制：即对 Top-k 最优候选轨迹进行逐步打分细化，通过额外的 Transformer Decoder 实现对相近轨迹的微差辨别，从而提升模型在关键决策点上的精度。最终，这些策略组成了我们的 GTRS-Aug 模型，相较于基线在 EPDMS 指标上得到了+2.8%的显著提升，展现出对感知扰动更强的鲁棒性。这一个模型来自于我们的新工作：DriveSuprim，欢迎大家关注！

模型集成：NAVSIM v2 冠军方案

图片 7 模型集成

为了最大化整体性能，我们对轨迹生成器与轨迹评分器进行了集成。在生成阶段，我们融合了由扩散策略生成的动态轨迹与静态词表轨迹；在评分阶段，我们使用多个互补的评分器（如 GTRS-Dense、GTRS-Aug 等）进行联合评估，从不同维度全面衡量轨迹质量。每个评分器都有其独特优势——前者擅长泛化，后者对于感知变化和轨迹的精细差异更鲁棒。模型集成提升了整体决策的可靠性与鲁棒性。最终，这一策略将 EPDMS 提升至 49.4，也是本次 NAVSIM v2 挑战赛的冠军方案。

表格 1 模型集成带来的性能提升

总结

在这次的 NAVSIM 挑战赛中，我们提出了 GTRS（Generalized Trajectory Scoring）框架。这个框架是一种通用的端到端多模态规划方法，能够统一处理静态词表轨迹与动态生成轨迹的评分任务，显著提升模型的泛化能力与轨迹辨别能力。最终，GTRS在 NAVSIM v2 数据集上取得了当前最先进的规划表现，荣获本次挑战赛冠军。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com