开闭环双SOTA！开源DMAD：无需改动规划模块，分合语义-运动的端到端新框架~-优快云博客

本文链接：https://blog.youkuaiyun.com/CV_Autobot/article/details/147157273

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享卡尔斯鲁厄理工学院团队最新的工作！无需改动规划模块，开闭环双SOTA：分合语义-运动的端到端框架！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

论文作者 | Yinzhe Shen等

编辑 | 自动驾驶之心

近年来，模块化的端到端自动驾驶作为一种将感知、预测和规划统一优化的范式，受到了越来越多的关注。相比传统的模块化自动驾驶系统，端到端方法可以减少误差累积和模块间的信息传播损失，提高系统效率与鲁棒性。然而，它也面临着一个关键挑战：端到端的训练往往会伴随着感知性能的下降，也就是感知负迁移。此外，一些子任务之间的关联性也并未被充分利用，例如物体和地图之间的关联性。

这篇论文分析了感知负迁移的原因，并基于此设计了分合语义-运动的端到端框架，消除了负迁移从而全面提升了感知性能，并在不改进规划模块的情况下达到了开环和闭环规划SOTA：

Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving

论文：https://arxiv.org/abs/2502.07631

代码：https://github.com/shenyinzhe/DMAD

负迁移产生原因

语义和运动是驾驶任务所需的最基本但又异构的两种信息。语义信息指代环境中其他物体的类别，车道，交通标志等，它们通常是时不变的（time-invariant）；而运动信息则描述了环境随时间的变化。在现有的端到端框架中，这两种信息是按顺序（sequential）学习的：首先进行物体和地图的感知，随后使用物体和地图的特征进行运动预测和规划，如图中的(a)所示。在此情况下，运动任务的梯度也被反向传播到感知任务中，在原本的语义特征中融入了运动特征。而运动特征对于目标检测和地图感知等语义任务来说是不明确的（ambiguous），从而导致了感知任务的负迁移。图中的（b）是另一类结构，主张使用单独的预测头将所有任务并行化。但由于目标检测和轨迹预测两个任务之间固有的关联性，语义-运动的顺序学习仍然存在而导致负迁移。

语义-运动分合架构

这篇论文提出了语义-运动分合架构。根据子任务所学习的信息将它们分为语义任务（目标检测和追踪、在线建图）和运动任务（轨迹预测、规划）。这个架构分离两类任务之间的梯度反向传播以消除负迁移，合并同类任务以利用任务之间的关联性而促进正迁移。

图片展示了本架构的概览，黑色实线为带有梯度的特征传播，灰色虚线则是无梯度的人类可读信息。上下两条路径分别用于学习语义和运动信息，并且切断了互相之间的梯度传播。

如何分离检测和预测？

由于目标检测和运动预测的固有关系，通常必须先执行检测，再对检测到的目标执行预测，形成了顺序学习的结构。本文提出了Neural-Bayes运动解码器。具体而言，本文为运动任务额外初始化了一系列和物体查询（object query）一一对应的运动查询（motion query），这些运动查询直接从历史图像特征中学习场景的运动信息。为了保留检测和预测的固有关系，本文提出了层间（inter-layer）参考点更新和帧间（inter-frame）参考点更新。每个运动解码层都接收来自上一个语义解码层的参考点作为运动查询的位置嵌入（positional embedding)，这是层间更新。执行完当前帧的所有解码层以后，本文使用学习到的运动特征预测未来轨迹，并将预测结果作为物体查询在下一帧的初始参考点，这是帧间更新。这个思想和贝叶斯滤波有些相似：物体查询可以看作是贝叶斯滤波中的观测（observation），而运动查询则为状态（state）。贝叶斯滤波的任务是从嘈杂（noisy）的观测中估计未知的状态，而本文将这个思想与Transformer解码器结合了起来，实现了分离的检测和预测。在最终输出时，运动查询则根据所对应的物体查询是否阳性（positive）来进行筛选。

合并语义任务

本文还提出合并同类任务以促进正迁移。物体类别和地图存在关联性，比如车辆大概率出现在可驾驶区域上，并且通常在车道内，而行人则很少出现在除了人行横道以外的可驾驶区域。本文提出了一种简单的方法以利用物体和地图之间的关联性：在每一个语义解码层中额外加入了一个物体和地图的自注意力模块以促进信息交互。

合并相似任务的思想也已可以应用在运动任务上，有一些其他论文提出了合并预测和规划，如SparseDrive等。但本文注重于提升端到端模型的感知性能，并将其推广到更好的规划，因此不对规划模块做显著更改。

实验结果

本文使用nuScenes作为感知，预测和开环规划的评估基准，使用NeuroNCAP作为闭环评估基准。本文将所提出的分合架构应用与目前流行的两个端到端模型：UniAD和SparseDrive，两者分别代表了基于稠密BEV的和基于稀疏感知的端到端驾驶方法。我们将基于UniAD的实现命名为DMAD，把基于SparseDrive的实现命名为SparseDMAD。在检测，追踪和在线建图的实验中，我们对比了模型在两阶段训练下感知性能的变化。由于第二阶段中加入了运动任务，UniAD和SparseDrive在第二阶段通常表现出更差的感知性能，而分合架构能够消除第二阶段的负迁移问题，在感知上最多能达到10%以上的提升。更好的感知也在轨迹预测任务上提升了端到端预测精度（EPA）。

本文在nuScenes开环评估中验证了分合架构对感知的提升可以被推广到规划上，对比两个基线分别降低了15%和4%的碰撞率。

在代码仓库中还提供了NeuroNCAP闭环评估代码和结果。将分合架构应用与UniAD上显著提提高了得分，实现了SOTA的闭环碰撞率结果。

可视化

论文使用SHAP values检验了分合架构对目标检测的分类头的影响。在UniAD的二阶段训练后，物体特征的SHAP values分布变得更加聚集，这意味着一部分特征维度对物体分类的作用降低了，这是负面的变化，也一定程度解释了负迁移。DMAD则在二阶段训练后基本维持原先的分布。

下面一些例子展现了DMAD相比于UniAD在降低碰撞率上的优势：

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com