浙大一篇中稿AAAI‘26的工作DiffRefiner：两阶段轨迹预测框架，创下NAVSIM新纪录！

原创于 2025-11-25 08:01:36 发布 · 295 阅读

10 ·

CC 4.0 BY-SA版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Liuhan Yin等

编辑 | 自动驾驶之心

与自动驾驶中预测自车固定候选轨迹集的判别式方法不同，扩散模型等生成式方法能够学习未来运动的潜在分布，实现更灵活的轨迹预测。然而由于这些方法通常依赖于对人工设计的轨迹锚点或随机噪声进行去噪处理，其性能仍有较大提升空间。

浙江大学&纽劢的团队提出一种全新的两阶段轨迹预测框架DiffRefiner：第一阶段采用基于Transformer的proposal解码器，通过对传感器输入进行回归，利用预定义轨迹锚点生成粗粒度轨迹预测；第二阶段引入扩散Refiner，对初始预测结果进行迭代去噪与优化。通过融合判别式轨迹proposal模块，本文为生成式精炼过程提供了强有力的引导，显著提升了基于扩散模型的规划性能。此外，本文设计了细粒度去噪解码器以增强场景适应性，通过加强与周围环境的对齐，实现更精准的轨迹预测。实验结果表明，DiffRefiner达到了当前最优性能：在NAVSIM v2数据集上达到87.4的EPDMS分数，在Bench2Drive基准测试中获得87.1的驾驶分数（DS）和71.4%的成功率（SR），在两个公开基准测试中均创下新纪录。消融实验也验证了各组件的有效性。

论文标题：DiffRefiner: Coarse to Fine Trajectory Planning via Diffusion Refinement with Semantic Interaction for End to End Autonomous Driving
论文链接：https://arxiv.org/abs/2511.17150
Code：https://github.com/nullmax-vision/DiffRefiner

一、背景回顾

近年来，端到端自动驾驶（E2E-AD）取得了显著进展，其能够直接将原始传感器输入映射为驾驶动作或轨迹规划。与依赖分离的感知、预测和规划模块的传统方法不同，端到端方法以统一的方式优化整个驾驶过程，从而提升了鲁棒性，简化了部署流程。

图1展示了端到端规划的不同范式：（a）单阶段判别式方法；（b）单阶段生成式扩散方法；（c）本文提出的粗到细框架，融合了判别式proposal构建与生成式扩散精炼。

用于自车轨迹预测的传统方法通常对感知特征或相机输入进行单次回归。尽管计算效率较高，但这些基于回归的方法在处理轨迹预测任务的多模态特性方面存在根本性局限。回归优化过程会对多模态行为进行平均处理，导致在复杂十字路口等场景下的预测效果欠佳，进而在真实驾驶场景中表现出较差的泛化能力。

为解决这些挑战，近期研究开始探索离散化解空间。例如，一些基于评分的方法采用离线聚类的轨迹锚点作为离散运动候选，将轨迹预测转化为分类问题。通过评估每个锚点与人类驾驶示范的相似度，或利用离线仿真评估给出的分数，这些方法能够学习未来运动的分布。然而，随着锚点集规模的增大，计算复杂度会显著增加，限制了此类方法在对延迟敏感的自动驾驶系统中的部署可行性。

一个日益受到关注的研究方向是利用扩散模型解决驾驶行为的多模态挑战。基于其在图像和视频生成领域的显著成功，这些方法在轨迹预测方面展现出巨大潜力。如图1（b）所示，这些模型为轨迹预测提供了一个连续的生成式框架。通过对高斯分布样本进行迭代去噪，它们能够生成多样化、物理上合理的轨迹，同时自然捕捉驾驶决策中固有的多模态特性。

DiffusionDrive通过对锚点参数化的高斯混合模型采样进行去噪，生成多样化的实时轨迹。然而，当前基于扩散模型的方法在初始化过程中存在关键局限：这些方法依赖于无结构的高斯噪声或固定的轨迹衍生锚点，两者均缺乏场景适应性。当初始样本偏离可行运动分布时，需要大量去噪迭代步骤，进而导致计算延迟增加。

为解决这些问题，本文提出DiffRefiner，一种新颖的两阶段轨迹预测框架，采用粗到细的架构设计。基于Transformer的proposal解码器首先通过对预定义锚点库进行回归，生成粗粒度轨迹预测，产生结构化先验，为后续精炼提供高层引导。第二阶段采用条件扩散精炼器，通过生成式扩散过程对这些初始预测进行迭代优化，从而捕捉轨迹细节。这种混合方法通过引入判别式轨迹proposal，为后续生成式精炼过程提供了优质初始化，显著提升了基于扩散模型的规划性能。

为增强场景适应性，本文提出细粒度去噪解码器，利用约束扩散实现预测轨迹与周围环境的精准对齐。具体而言，本文设计了细粒度语义交互模块，将环境约束系统地融入轨迹精炼过程。该模块通过三个阶段运作：首先，交叉注意力层建立轨迹特征与BEV语义区域（如可行驶区域和障碍物）之间的密集对应关系，以编码整体全局上下文和场景级依赖；其次，可变形注意力选择性地将轨迹端点与关键区域语义对齐，提取细粒度局部结构和交互线索；最后，自适应门控网络动态融合全局场景表征与局部语义信息，使模型能够平衡粗粒度上下文理解与精准空间对齐。这种分层设计有助于在基于扩散模型的精炼框架中实现精准、上下文感知的轨迹优化。

在实验中，本文在开环真实世界数据集NAVSIM和闭环仿真基准测试Bench2Drive上对DiffRefiner进行了评估。实验结果表明，DiffRefiner达到了当前最优性能：在NAVSIM v2上获得87.4的EPDMS分数，在Bench2Drive上获得87.1的DS和71.4%的SR，在两个公开基准测试中均创下新纪录。

本文的主要贡献如下：

提出一种粗到细规划框架，首先生成基于锚点的高效轨迹proposal作为强先验，然后通过基于扩散模型的精炼对其进行优化；
设计带有场景感知语义交互模块的细粒度去噪解码器，通过在去噪过程中优化环境对齐，实现精准的轨迹精炼；
DiffRefiner在开环真实世界基准测试NAVSIM v2和闭环仿真基准测试Bench2Drive上均取得了当前最优（SOTA）性能。

三、DiffRefiner算法详解

端到端自动驾驶接收原始传感器输入，直接预测自车的未来轨迹。预测轨迹表示为，其中代表预测时域，表示自车在时间步的状态，包括位置和航向。

整体框架

所提出的DiffRefiner框架整合了三个关键组件：感知模块、proposal解码器和基于扩散的细化器，构建了统一的粗到细轨迹规划架构。如图2所示，该框架包含三个主要部分：（1）以BEV为中心的感知模块，处理传感器输入并通过辅助任务训练以增强场景理解；（2）粗轨迹proposal解码器，采用轻量级Transformer，通过调整锚点生成初始路径预测；（3）基于扩散的轨迹细化器，通过迭代去噪和细化proposal，生成能更好捕捉真实驾驶复杂性的优化轨迹。

感知模块

感知模块利用BEV编码器从原始传感器输入中生成鸟瞰图特征。该模块通过两个互补的头处理这些特征：用于检测单个目标的稀疏代理头和用于全面场景理解的密集分割头。这种双头架构能够同时实现目标级代理理解和像素级环境分割。

分割头通过语义分割网络转换BEV特征：

其中表示预测的语义图，包含道路元素、动态代理和静态障碍物。

对于稀疏代理计算，为了融入自车状态信息，本文将其动态状态（包括速度和加速度）和导航指令编码为紧凑的潜在表示。该表示与场景上下文相结合，并通过基于Transformer的解码器处理，该解码器作用于一组可学习查询。解码器生成更新后的查询，这些查询分为两种不同类型：用于轨迹生成的规划令牌和用于稀疏检测任务的代理令牌。检测头处理代理令牌以预测周围目标：

其中表示环境中检测到的代理的位置和类别。

proposal解码器

在第一阶段，本文采用基于轻量级Transformer的方法，通过预测偏移量来调整预定义锚点，将调整后的锚点作为轨迹proposal。该方法采用一组预定义的轨迹锚点（通常通过离线聚类获得，作为离散运动候选），并通过Transformer解码器预测轨迹输出。

本文将离线聚类的离散轨迹词汇表定义为。每个锚点经过位置编码后，通过多层感知机（MLP）投影形成初始proposal查询，随后通过与规划令牌的交叉注意力机制获取上下文信息：

其中表示正弦位置编码，将每个编码后的锚点投影到潜在查询空间，提供规划相关上下文，表示得到的上下文增强轨迹查询。

扩散细化器

在第二阶段，基于扩散的refiner通过条件去噪优化所有轨迹proposal，生成更真实且上下文相关的预测。具体而言，如图3所示，本文设计了细粒度去噪解码器，在迭代细化过程中明确施加轨迹-环境对齐约束，确保增强对场景语义和动态的依从性。

训练阶段：训练过程中，本文通过在步内逐步向添加高斯噪声来模拟前向扩散过程。在随机采样的时间步，带噪轨迹的计算方式为：

其中是噪声调度的累积乘积。带噪样本通过位置编码和MLP编码为细化查询，形成多模态自车查询：

基于场景感知交互的条件去噪：场景感知条件去噪模块通过整合多级环境上下文的分层细化过程来提升轨迹预测性能，如图3所示。

该架构首先通过空间BEV调制模块从BEV表示中提取轨迹条件空间特征，这些特征初始化细粒度语义交互模块（FGSIM），该模块通过两个连续的细化阶段工作。

第一阶段通过将细化器查询与BEV特征和可行驶区域分割相结合，进行道路感知细化，从而将预测约束在物理上可导航的道路区域内。在此基础上，第二阶段通过融入动态代理特征进行交互感知细化，实现对交通参与者交互的显式建模和主动避撞。

后续的交叉注意力层通过捕捉代理间关系和自车运动约束进一步细化预测。最后，并行的MLP头预测细化后的轨迹及其置信度分数，确保物理可行性和上下文一致性。

细粒度语义交互模块：基于地图的推理和基于交互的推理是自主规划的两个基本方面，因此本文引入语义感知交互模块，明确考虑这两个方面。该模块通过使规划器与地图语义和动态代理交互对齐，依次增强规划器性能，同时将全局场景上下文和局部结构线索分层整合到轨迹解码中，以提升场景理解能力。为实现这种有针对性的交互，该模块首先从感知输出中提取语义关键区域，为后续基于地图和代理的推理提供区域级指导。

为识别与下游规划高度相关的关键区域，本文利用语义分割输出提取具有语义意义的感兴趣区域：

其中表示第类语义（如车道边界、人行横道）的第个区域。应用类别特定的语义掩码过滤分割图，并将得到的区域投影到BEV特征空间，以实现区域感知特征提取：

该模块随后通过互补的注意力机制处理每个语义特征，这些机制旨在联合捕捉全局场景上下文和局部几何细节。其中表示从先前交互阶段传递的更新后的细化器查询。这通过两步注意力过程实现：首先，全局交叉注意力操作整合全场景上下文信息；其次，局部可变形注意力自适应地聚焦于与轨迹空间相关的区域：

其中提供轨迹自适应空间参考。

门控融合机制动态平衡这些表示：

其中表示sigmoid激活函数，将输入映射到（0,1）范围，是用于计算门控系数的可学习线性投影，表示融合全局和局部交互后更新的细化器查询。

训练损失

借鉴现有的端到端方法，本文采用两阶段训练方案以提升优化稳定性。

第一阶段，使用Transfuser风格的感知损失优化感知网络，记为。

第二阶段，端到端联合优化感知和规划。采用赢者通吃策略选择最接近真实轨迹的轨迹，并计算自车预测损失：

其中是L1回归损失，是二元交叉熵分类损失。最终目标函数整合所有组件：

其中和分别是proposal模块和细化模块的规划损失。

四、实验结果分析

实验设置

本文采用两个广泛认可的基准：用于开环评估的NAVSIM v2和用于闭环测试的Bench2Drive。

NAVSIM：NAVSIM基于Openscene数据集，是一个真实世界的、以规划为核心的基准，用于在开环场景下评估自动驾驶模型。本文在Navtest数据集上进行评估，该数据集包含12146帧，涵盖交叉路口、动态代理和各种交通条件等多样化场景。为衡量规划性能，本文使用NAVSIM v2中引入的扩展预测驾驶模型分数（EPDMS）。

Bench2Drive：Bench2Drive是基于CARLA的闭环评估基准，旨在评估端到端自动驾驶系统在交互式城市场景中的性能。本文在220条路线上评估模型，这些路线涵盖44个多样化的交互式场景。官方指标包括驾驶分数（DS）、成功率（SR）和多能力分数，这些指标共同衡量导航性能、安全性和规则遵守情况。

实现细节：对于NAVSIM基准，本文使用标准的navtrain数据集进行训练。与NAVSIM v2挑战赛规范一致，本文的模型处理来自前视、左前视和右前视摄像头的同步多视角输入。训练采用384的批次大小和4e-4的学习率，共训练100个epoch，感知预训练和端到端微调阶段采用相同的训练调度。对于Bench2Drive评估，本文遵循TF++建立的数据集配置和预处理流程。两个基准均采用20个聚类轨迹锚点进行proposal初始化，并将所有proposal传递到细化模块。所有实验均在由8块NVIDIA RTX 4090 GPU组成的集群上进行。

与SOTA对比

NAVSIM上的结果：本文在NAVSIM v2基准上进行了全面的开环评估。如表1所示，本文的框架实现了新的最先进性能，大幅超越了之前的最佳方法，在ResNet34骨干网络下提升了3.7%，在V2-99骨干网络下提升了1.6%。结果显示在安全关键指标上有显著提升，验证了本文架构设计的有效性。

Bench2Drive上的结果：本文在Bench2Drive基准的闭环场景下进一步评估了本文的方法。如表2所示，本文的方法优于所有现有的基于学习的基准，实现了最先进的结果。在不使用模型集成的情况下，与之前的最佳方法HiPAD相比，驾驶分数（DS）提升了0.3，成功率（SR）提升了2.3。与现有的判别式或全生成式方法不同，本文的框架采用混合生成式范式，将基于粗锚点的proposal与基于扩散的细化相结合。这种设计在大多数多能力指标上均取得了持续提升，证明了其在多样化交互式驾驶场景中的鲁棒性和有效性。

消融实验

规划框架的消融：表3评估了本文规划框架中每个阶段的影响。第1行和第6行的对比表明，引入细化器使EPDMS提升了1.2，证实其显著提升了轨迹proposal的质量。第2行和第6行进一步表明，更高质量的proposal提高了细化的上限，其中第2行采用两次去噪迭代，而第6行仅使用一次迭代。同时，第1行和第5行表明，适当的细化器监督有助于proposal学习。最后，第4行和第6行的对比突显了本文的生成式细化器相对于判别式替代方案在执行细粒度轨迹调整方面的优势。

细化器组件的消融：如表4所示，本文对细化器解码器中的每个模块进行了系统性消融，以评估其贡献。结果显示所有组件均带来了持续提升，验证了整体设计的有效性。对比第4-6行，语义交互机制通过利用细粒度语义线索，逐步提升了场景理解能力并减少了与碰撞相关的错误。

细粒度语义交互模块（FGSIM）组件的分析：如表5所示，全局上下文和局部目标线索各自独立带来了性能提升，证明了它们的互补作用。然而，将两者简单相加融合会因信息冲突导致性能下降。相比之下，本文的门控机制自适应地平衡了它们的贡献，实现了最佳性能，证实了自适应特征融合的优势。

去噪步骤的消融：表6的结果表明，仅需一次去噪步骤即可实现接近最优的性能。这一发现突显了高质量proposal作为强先验的有效性，能够实现高效的基于扩散的细化，并表明本文的框架适用于实时端到端自动驾驶。

定性分析

如图4所示，在复杂的交互式场景中，本文的方法优于DiffusionDrive，能够更好地关注细粒度场景细节。它减少了与周围代理的碰撞，并更严格地遵守地图约束，生成了更高质量的轨迹。

结论

浙江大学&纽劢的团队提出了DiffRefiner，这是一种用于端到端自动驾驶规划的新的两阶段轨迹预测框架。DiffRefiner结合了一个基于Transformer的proposal解码器来生成粗略的轨迹，为后续的生成式细化提供了强有力的指导。扩散细化器通过使用细粒度解码器的迭代去噪进一步改进了这些建议，从而增强了场景合规性，并产生了更准确和逼真的轨迹。在NAVSIM v2和Bench2Drive上进行的广泛实验表明，DiffRefiner取得了最新的SOTA！

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com