点击下方卡片,关注“自动驾驶之心”公众号
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
CVPR2025 WOD纯视觉端到端比赛放榜了,给大家分享下前三名的技术方案!
太长不看版:
冠军:来自EPFL团队,参考DiffusionDrive,用了nuPlan的数据 + ensembling 的策略;
亚军:Nvidia & Tubingen团队,参考DiffusionDrive 和 SmartRefine,使用CARLA、NaviSim, WOD-P, WOD-E2E 等 4 个数据集,实验对比了不同阶段用不同数据训练的效果,证明训练数据循序的重要性(实验也用了 ensembling策略,有提升但不多):pre-training可以多但质量差一些的数据,post-trainig 得用高质量的数据
季军:韩国汉阳大学团队,主打一个结构简洁,输入只用前视图+自车状态,最后用一个 trajectory-decoder 输出结果
特别奖:值得一提是这个特别奖,使用QWen2.5-VL,用 72B 的模型生成 CoT数据,最后在 3B 模型上训练~
特别奖论文链接:https://storage.googleapis.com/waymo-uploads/files/research/2025%20Technical%20Reports/2025%20WOD%20E2E%20Driving%20Challenge%20-%20Special%20Mention%20-%20Poutine.pdf#page=2.94
冠军方案
引言
自动驾驶系统传统上采用模块化架构,包括感知、预测和规划等独立组件。然而随着强大基础模型的出现,人们对端到端方法的兴趣日益增加。这些方法可以直接将原始传感器输入映射为驾驶的行为动作,在鲁棒性和推理能力方面展现出良好的前景。
为了评估这些方法在处理复杂现实世界挑战时的有效性,2025年Waymo开放数据集基于视觉的端到端(WOD-E2E)驾驶挑战赛提出了一个新的基准,重点关注长尾驾驶场景——即罕见但影响重大的情况,例如绕过马拉松比赛、与摔倒的滑板车骑行者发生碰撞,或与紧急车辆互动。该数据集包含4021个20秒的驾驶片段,其中2037个用于训练,479个用于验证。测试集仅包含部分观测数据用于预测。参赛者需要使用来自8个周围摄像头、过往车辆姿态和路线规划的输入,在鸟瞰图坐标系下预测5秒的路径点轨迹。提交结果主要通过“评分反馈得分”(Rater Feedback Score, RFS)进行评分,“平均位移误差”(Average Displacement Error, ADE)作为平局判定标准。
在本报告中,我们提出了UniPlan,这是一种统一的端到端规划框架,利用了WOD-E2E数据集之外的大规模公共驾驶数据集,以提高在罕见长尾场景中的泛化能力。我们的方法在2025年挑战赛排行榜上获得第三名,且未依赖昂贵的多模态大语言模型(MLLM)自动标注技术。
方法

模型架构
我们的模型基于DiffusionDrive,它引入了一种截断扩散策略,用于高效且多样化的轨迹生成。其架构如图1所示。不同于从随机高斯噪声中去噪的传统扩散方法,DiffusionDrive从一个锚定的高斯分布(围绕先验的多模式轨迹锚点生成)开始,并仅应用两次去噪步骤来生成最终的轨迹预测。其关键优势包括:
显著减少去噪步骤(2次而非20次),实现实时推理。
锚点引导采样确保模式多样性并避免模式崩溃。
级联扩散解码器在每次去噪步骤中通过交叉注意力机制对BEV和智能体/地图查询进行细化。
在训练过程中,每个带噪声的轨迹都与其锚点配对,并使用基于Transformer的扩散解码器进行去噪,该解码器以场景上下文为条件。模型输出轨迹坐标和置信度分数。
扩散解码器(Diffusion Decoder)
我们遵循DiffusionDrive 中提出的基于扩散的轨迹生成设计。该方法首先从锚定高斯分布中采样一组带噪声的轨迹 。对于每条轨迹,应用可变形空间交叉注意力机制,根据轨迹坐标从鸟瞰图(Bird’s Eye View, BEV)或透视图(Perspective View, PV)中提取特征。
随后,模型在轨迹特征与代表智能体或地图的查询之间执行交叉注意力操作(这些查询由感知模块提取),然后经过前馈网络(Feed-Forward Network, FFN)。为了整合扩散时间步长,架构中包含了一个时间步调制层,接着是一个多层感知机(Multi-Layer Perceptron, MLP),用于预测置信度分数和相对于初始噪声坐标的偏移量:
这一过程在级联扩散解码器层中重复进行,实现迭代去噪。在推理阶段,解码器被复用,且各去噪步骤共享权重。最终轨迹根据最高预测置信度选出。
数据处理
nuPlan数据集
我们使用滑动窗口(9秒,4秒历史+5秒未来)每1秒采样一次,从100小时的nuPlan数据集中构建了一个包含9万个样本的数据集。保留那些常速模型预测的最终位移误差大于0.5米的样本,并有10%的概率保留位移误差小于0.5米的样本以提升数据多样性。
WOD-E2E数据集
我们使用类似的过滤策略创建了35k训练样本和10k验证样本,以基于WOD-E2E数据生成新的锚点,用于模型的训练和推理。
DiffusionDrive最初是在Navsim基准测试中提出的,为了适配WOD-E2E挑战:
我们使用K-Means聚类(20簇)基于WOD-E2E数据生成新的规划器锚点,用于5秒预测范围(nuPlan为4秒)。
使用原始自车状态特征向量(速度、加速度、命令)。
相机特征对齐
nuPlan图像(1920×1120)裁剪(L0、F0、R0视角),拼接成4:1宽高比图像,并缩放至1024×256。WOD-E2E相机数据则直接拼接前三个摄像头并缩放到相同尺寸。
训练设置
我们在一个配备4块H100 GPU和360GB内存的计算节点上进行训练。每块GPU处理64个样本,总批量大小为256。使用AdamW优化器,学习率为 ,并采用Warmup Cosine LR调度器:
预热3个epoch后进行余弦衰减。
总共训练100个epoch。
最终模型选择最后一个检查点。
详细参数见表2。
计算时间
联合训练(WOD-E2E + nuPlan)大约耗时6小时。单独使用WOD-E2E训练需1.5小时。
推理策略
我们训练了4个DiffusionDrive模型,使用不同种子:
一个模型在完整数据集(WOD-E2E + nuPlan / WOD-E2E-only)上训练
三个模型在完整数据集的80%随机子集上训练
在推理阶段,每个模型从锚定高斯分布中生成20个候选轨迹,使用2次去噪步骤,如原论文所述。这些轨迹通过模型的置信度头打分。总共收集80个候选轨迹,选取得分最高的轨迹作为最终输出。
实验
设置
我们评估以下三种配置:
Setting A:仅使用WOD-E2E训练,不使用集成
Setting B:仅使用WOD-E2E训练,使用集成
Setting C:联合训练WOD-E2E和nuPlan,使用集成
性能通过WOD-E2E挑战排行榜上的Rater Feedback Score(RFS)和ADE进行衡量。
结果与分析
结果列于表1。我们的实验得出以下结论:
模型集成显著提升了RFS,表明聚合多个模型预测的好处。
联合训练nuPlan数据整体上小幅提高了平均RFS,尤其在某些长尾类别上有明显改善。
明显提升的类别包括:骑自行车者交互、切入行为、单车道调整、特殊车辆交互。

结论
我们提出了UniPlan,一种通过利用大规模公共驾驶数据集实现可扩展端到端规划的统一框架。我们的方法在WOD-E2E长尾挑战中取得了具有竞争力的结果,而无需依赖昂贵的基础模型。结果突出了以数据为中心的方法在提升自动驾驶系统鲁棒性方面的潜力。
更多训练细节
我们提供了更多训练细节,以便复现榜单结果。

亚军方案
摘要
现有自动驾驶车辆(Autonomous Vehicle, AV)数据集的碎片化阻碍了能够处理复杂和罕见事件的通用驾驶策略的发展。为了解决这一问题,我们提出了 Open-X AV(OXAV),旨在整合多种AV数据集,使模型能够从这些多样化的来源中学习。我们提出了一种两阶段训练流程:第一阶段使用感知导向数据进行预训练,第二阶段在具有挑战性的规划导向场景上进行后训练。我们的方法 DiffusionLTF 是一个基于 OXAV 的简单端到端策略,在 2025 年 Waymo 视觉驱动挑战赛中排名第二,展示了多样化聚合数据的优势。

引言
大规模、多样化的数据集对于构建具备泛化能力的人工智能系统至关重要。尽管自动驾驶汽车(AVs)可以从这种数据集中受益匪浅,但目前公开可用的数据集仍高度碎片化。每个数据集通常侧重于某一特定领域,例如带有精确标签的感知数据、用于仿真的合成数据,或对规划至关重要的大规模自动标注数据。然而,这种专业化限制了仅在单一数据集上训练的端到端系统有效应对复杂、罕见事件的能力。
本工作旨在通过推动跨平台、多数据集的学习来弥补这一差距。借鉴机器人领域的类似努力,我们提出了 Open-X AV(OXAV),旨在整合多样化的 AV 数据集,以促进通用自动驾驶模型的研究。
具体而言,我们提出了一种两阶段训练流程,利用不同数据源的独特优势:
初始预训练阶段:在大规模感知导向数据集上进行训练,可能包含大量合成数据,建立强大的表征基础。
后续后训练阶段:聚焦经过策划的规划导向数据集,使模型暴露于具有挑战性且少见的驾驶场景中。
在首次发布中,OXAV 仓库支持在图1所示的四个不同数据集上联合训练,这些数据集特意选择以体现感知与规划之间的互补性。为了验证此类聚合数据的有效性,我们在 OXAV 上训练了简单的端到端驾驶模型,并参与 Waymo 基于视觉的端到端驾驶挑战。我们的模型在官方排行榜上取得了高排名,即使只使用了一个 ResNet34 骨干网络 ,并且仅需一块 A100 GPU 训练一天即可完成训练。我们发现 Waymo Open Dataset-Perception 分割 在预训练阶段特别有效。该结果初步证明了跨数据集学习在端到端自动驾驶开发中的优势。
Open X-AV
任务
Waymo 基于视觉的端到端驾驶挑战是一个开放回路基准测试,要求根据传感器输入和车辆运动信息预测未来的车辆轨迹,包括:
提供360°环境感知的摄像头图像;
历史车辆状态;
离散导航指令。
与以往的开放回路基准不同,本次挑战所用数据集经过精心策划,包含长尾驾驶场景。参赛团队需要预测5秒未来路径点轨迹,并以鸟瞰图坐标表示,评分采用新的“评分反馈得分”(Rater Feedback Score, RFS)。我们的研究探索了跨数据集学习在此任务上的应用。
数据集
我们的方法目前利用了四个多样化的数据集进行跨数据集学习,如表1所示。

**Waymo Open Dataset - Vision-Based E2E (WOD-E2E) **:是本次挑战的主要评估数据集。WOD-E2E 包含 4,021 个 20 秒片段,专门针对日常驾驶中发生频率低于 0.003% 的长尾事件。
CARLA:是一个模拟器,可使用 WOD-E2E 的相机标定参数生成合成训练数据。我们使用 PDM-Lite 作为专家策略,在 Town01-10、12 和 13 上收集驾驶演示。
NAVSIM:来自 OpenScene,是对 nuPlan 数据集的再分发,包含 120 小时真实世界驾驶数据,采样频率为 2Hz。我们使用 nav-train 子集,过滤掉那些简单基线就能表现良好的平凡场景。
**Waymo Open Dataset - Perception (WOD-P)**:提供 3D 边界框和高清地图。我们将后者转换为 BEV 语义分割掩码以匹配的格式。
为缓解训练数据统一对齐的问题,我们裁剪图像以对齐焦距大小,并通过填充常数像素缓解相机高度差异。然而,其他相机参数(如畸变系数和安装位置)仍存在差异,这可能影响跨数据集泛化能力。
基线方法
为了处理具有挑战性的测试数据的多模态特性,我们在实验中考虑了几种基线方法。
**Latent TransFuser (LTF)**:作为我们的第一个基线架构。原始 TransFuser 模型融合了 LiDAR BEV 表示和 RGB 透视图 ,而 LTF 则将 LiDAR 输入替换为常量,使得 LiDAR 分支变为 Transformer-based 传感器融合的可学习查询,实现纯视觉端到端驾驶。
**Diffusion Latent TransFuser (DiffusionLTF)**:扩展了 LTF 基线,引入基于扩散的轨迹生成头。借鉴 DiffusionDrive 和 SmartRefine的思想,我们采用截断扩散策略,既能生成多样轨迹,又能保持快速推理。
DiffusionLTF 架构细节
DiffusionLTF 使用编码器-解码器结构,每个路径点视为一个单独的查询,允许对轨迹细化进行细粒度推理。训练过程中,我们对这些轨迹原型施加高斯噪声,并识别最接近真实值的受污染轨迹作为去噪过程的初始化。模型通过最小化去噪轨迹与真实轨迹之间的误差来学习重建干净轨迹。
为选择去噪提案,我们使用分类头对每个候选进行打分,优化目标为交叉熵损失。设 为真实轨迹, 表示第 个去噪候选, 为候选的去噪误差,则目标分布定义为:

实验
模型分析
对于最终测试集提交,我们训练了 LTF 和 DiffusionLTF 的路径点解码器共享骨干网络。两种规划器的性能概览见表2。我们发现混合集成方法显著优于单个模型组件。具体来说,我们从 DiffusionLTF 中采样10个提案,这些提案可能属于不同模式并按模式分组。在每组内,我们平均轨迹并求和其对应的logits。最后,选择logit最高的模式组的平均轨迹,并再次与 LTF 的确定性规划输出进行平均,得到最终预测。

结论
我们的研究表明,跨数据集学习可以提升端到端驾驶性能,预训练于多样化 OXAV 集合的模型在 WOD-E2E 基准上表现出色。更重要的是,我们的分析表明,虽然额外数据集始终带来好处,但在选择数据源时质量胜过数量。像 WOD-P 这样的高质量数据集可以胜过复杂的数据集组合,数据集集成的方式也很重要。辅助数据在预训练阶段有益,但在后训练阶段可能会降低性能。这些发现表明,战略性地选择数据集并谨慎地将其集成到训练中,与数据集本身的多样性一样重要。
季军方案
摘要
端到端自动驾驶旨在直接从原始传感器输入中预测运动规划或控制指令。尽管最近的方法通常结合了视觉语言模型(VLMs)或辅助任务,我们采取了一种极简主义方法——称为 Swin-Trajectory,这是一种基于 Transformer 的路径点预测器,仅使用单个前置摄像头和结构化的自车历史信息。我们采用轻量级的 Swin Transformer 作为骨干网络来提取密集图像特征,并在这些特征与路径点查询之间使用交叉注意力机制——路径点查询来源于历史轨迹和自车状态——以捕捉用于轨迹预测的空间-时间上下文。我们的模型在 RTX 4090 上运行速度为 14ms,并在挑战赛中实现了具有竞争力的性能。
引言
端到端(E2E)自动驾驶是一种新兴范式,其中驾驶行为通过统一模型直接从传感器输入中推断出来。相比传统模块化方法,E2E 方法因其能够对整个驾驶系统进行整体优化而受到广泛关注,从而显著提升安全性与性能。
近年来的端到端(E2E)方法通过引入辅助感知任务并进一步利用视觉语言模型(VLMs)取得了优异表现,例如 EMMA,它利用其推理能力处理更具挑战性的场景。然而,这类方法不可避免地导致更大的、更复杂的模型架构。相比之下,我们采用一种极简主义方法:一个轻量级、适合部署的模型,仅通过轨迹监督进行训练。
我们的模型 Swin-Trajectory 是一个精简的 E2E 规划器,仅使用单个前视相机和自车状态,无需任何额外监督。通过精心设计以避免捷径学习,我们的模型在准确性和计算效率之间达到了令人满意的平衡。
方法
为了预测车辆坐标系下的未来路径点序列,我们使用单个前置摄像头和结构化的路径点查询。如图 1 所示,我们的架构由三个部分组成:特征提取器、自车信息编码器和轨迹解码模块。

特征提取
我们首先使用 Swin Transformer作为骨干网络从输入图像中提取视觉特征。为了为密集图像特征提供几何基础,我们使用三维位置编码。具体来说,我们从特征图网格中采样密集像素位置,并使用一组预定义的深度区间将每个像素投影到三维空间。然后对得到的三维坐标进行归一化,并通过线性位置编码器获得三维位置编码。
自车信息编码器
为了将历史路径点和自车状态编码为路径点查询,我们将历史路径点 展平为 ,并通过线性层生成初始查询嵌入 。
自车状态向量 包括速度、加速度、偏航率、初始速度、从过去轨迹估计的曲率、固定车辆尺寸以及一个热编码的驾驶意图。该自车状态向量 然后通过另一个线性层编码生成键值对 。
这些信息通过一个 Transformer 层融合,其中 作为查询, 作为记忆,结果是融合了时间历史和结构化自车信息的改进路径点查询 。这些查询随后在解码块中与图像特征一起用于最终预测。
轨迹解码器
轨迹解码块接收图像特征 。这些特征首先沿着空间和相机维度展平形成一个序列: 。
展平后的特征序列作为键和值输入到一个 Transformer 层中,而来自第 2.2 节的改进路径点查询 作为查询。Transformer 层融合空间图像特征与路径点查询,最终轨迹通过应用在线性投影层上的解码器输出进行预测。
损失函数
我们使用 L2 损失用于轨迹预测。给定预测轨迹 和真实轨迹 ,损失定义为:
实验
数据集与评估指标
我们在实验中使用 Waymo 开放数据集用于端到端驾驶(WOD-E2E)。每个数据样本包含多视角摄像头图像、过去轨迹和自车状态。预测目标是在开环设置下预测 5 秒内的未来轨迹。
评分反馈分数(RFS) 通过测量在预定义信任区域内的预测轨迹与人类评分者轨迹之间的偏差来评估轨迹预测。在 t=3 和 t=5 秒时,根据横向和纵向阈值对预测进行评分,阈值按自车初始速度缩放。在区域内给予满分,而偏离则产生指数惩罚。最终得分限制在 4 到 10 之间,惩罚计算如下:
在验证集上,单个真实轨迹被视为单个评分者,且 。
采样策略
在训练过程中,图像序列的帧率是10 Hz。我们观察到重要的驾驶场景通常出现在序列中间。因此,使用所有可用帧会导致常见场景中的显著冗余,削弱模型有效处理罕见但关键情况的能力。为此,我们每隔 15 帧采样一次帧,以减少冗余和训练成本。
出于相同原因,在评估中使用每一帧会导致不准确的评分,因为许多帧对应于较不复杂的驾驶情况,这可能会掩盖模型在更关键或更具挑战性场景中的表现。我们采用两种采样策略:选择每段中的一个代表性帧——即每段结束前 80 帧,并从整个验证集中每隔 20 帧采样一次。

实现细节
我们的实验在 NVIDIA RTX 4090 GPU 上进行。我们使用在 ImageNet 上预训练的 Swin Transformer-Tiny 图像编码器,patch size 为 (2, 4, 4),window size 为 (8, 7, 7)。编码器处理分辨率为 800×972 的图像。我们使用 AdamW 优化器,在训练拆分上训练 50 个 epoch,batch size 为 8。学习率设置为:图像主干为 ,其他模块为 ,权重衰减为 0.01。我们采用带线性 warmup 的余弦退火学习率调度器,前 500 次迭代 warmup ratio 设置为 0.33,最小学习率为初始值的 。梯度裁剪最大范数设为 35 以稳定训练。在整个主干和解码块中应用 dropout,比率为 0.1。训练过程中未使用模型集成。对于使用附加语义掩码的实验,我们使用 UPerNet生成语义分割特征。
结果
如表 1 所示,增加轨迹解码块的数量可以提高性能。没有语义输入的三块变体在测试中获得了最高得分,验证了我们极简设计的有效性。
作为补充实验,我们研究了引入语义信息是否能进一步提升性能。我们使用预训练语义分割模型的输出,并在 RGB 输入前添加一个通道的语义先验,形成四通道图像。虽然这种变体在验证集上表现更好,但在测试集中表现较差——可能是由于分割输出中的噪声和域差距。
比较单摄像头与三摄像头设置时,我们发现尽管三摄像头配置计算成本更高,但整体性能反而下降。我们认为这是由于模型容量有限(36M 参数),难以解耦因展平和联合编码多个视图而引入的冗余或错位特征。这一观察表明,仅增加输入视图数量并不能保证更好的性能。相反,它强调了适应性和内容感知的多视图融合策略的重要性,以选择性地提取各视图间的互补信息。
如表 2 和图 2 所示,某些场景类型(如施工区域)中三摄像头设置明显优于单摄像头变体。这表明附加视图可以带来益处,支持多视图输入具有强大潜力的观点,但其成功取决于信息整合的有效性。


结论
在本报告中,我们介绍了 Swin-Trajectory,这是一个专为 Waymo 视觉端到端驾驶挑战设计的轻量级极简端到端驾驶模型。我们的方法仅依赖于一个前置摄像头和结构化的自车输入,避免了对语义标签或高精地图的依赖。尽管结构简单,Swin-Trajectory 仍能通过编码器-解码器注意力框架有效建模空间和时间上下文:自车信息编码器整合历史轨迹和车辆状态,轨迹解码器实现路径点查询与密集图像特征之间的交叉注意力。
在 WOD-E2E 验证集和测试集上的广泛实验表明,我们的架构在低延迟和低计算成本下实现了具有竞争力的结果。值得注意的是,我们展示了在单摄像头设置中增加解码块数量可显著提升性能。
尽管三目相机在某些场景(如施工区域)中表现出优势,但我们的结果表明,多视图融合需要更精细的处理才能持续优于单视图基线。未来的工作可能探索自适应融合策略和外部先验的整合以进一步提升性能。
这里也推荐下平台打造的《面向工业级的端到端自动驾驶算法与实战》,主讲老师是一线头部自动驾驶公司端到端算法工程师。
欢迎扫码加入学习!
大纲如下:
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com