
点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享复旦大学和上海创新研究院最新的工作 - VeteranAD!从“感知–规划”到“感知即规划“的端到端全新范式。如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群加入,也欢迎添加小助理微信AIDriver005做进一步咨询
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
论文作者 | Bozhou Zhang等
编辑 | 自动驾驶之心
端到端自动驾驶在近几年取得了显著进展,它将多个任务统一到一个框架中,为了避免多个阶段造成的信息损失。通过这种方式,端到端驾驶框架也构建了一个完全可微分的学习系统,能够实现面向规划的优化。这种设计使得其在 open-loop(开环) 和 closed-loop(闭环) 规划任务中都展现出了不错的表现。
主流的端到端自动驾驶方法通常采用顺序式范式:先执行感知,再执行规划,如图1(a)所示。常见的做法是引入 Transformer 架构,使整个流程保持可微分。然而,仅仅依靠可微分性并不足以充分发挥端到端规划优化的优势。毕竟,端到端自动驾驶的目标是让所有前置模块都能更好地为规划服务。
为了解决上述局限性,我们提出了一种 “perception-in-plan(感知融入规划)” 的新范式,它将感知过程直接嵌入到规划之中。这样,感知模块就能以更具针对性的方式运作,与规划需求保持一致。基于这一思路,我们设计了 VeteranAD 框架,如图1(b)所示。在该框架中,感知与规划紧密耦合。我们采用 多模态锚定轨迹(multi-mode anchored trajectories) 作为规划先验,用来引导感知模块在预测轨迹上感知关键交通元素,从而实现更全面、更有针对性的感知。
为了让感知能够真正服务于规划,我们进一步引入了一种自回归(autoregressive)策略:逐步生成未来轨迹。在每一个时间步,模型都会在规划先验的指引下,聚焦于相关区域进行针对性感知,并输出该时间步对应的规划结果。基于这一范式,我们设计了两个核心模块:
规划感知耦合的整体感知模块(Planning-Aware Holistic Perception):在图像特征、鸟瞰图(BEV)特征以及周围交通体特征三个维度上进行交互,从而实现对车辆、车道和障碍物等交通元素的全面理解。
局部自回归轨迹规划模块(Localized Autoregressive Trajectory Planning):以自回归的方式解码未来轨迹:从近到远逐步调整锚定轨迹,并结合感知结果不断优化,确保规划既具备上下文感知能力,又能逐步细化。
通过以上设计,VeteranAD 利用轨迹先验来实现聚焦式感知和渐进式规划,从而在端到端规划任务中表现出强大的性能。
总结来说,本文的主要贡献如下:
提出了 VeteranAD 框架,首次将 “perception-in-plan” 范式应用于端到端自动驾驶,将感知深度融入到规划过程中;
设计了两个关键模块:Planning-Aware Holistic Perception 和 Localized Autoregressive Trajectory Planning,实现感知与规划的紧密耦合,最大化发挥端到端优化的优势;
在 NAVSIM 和 Bench2Drive 两个数据集上的大量实验表明,VeteranAD 均取得了当前最优的性能表现。
相关工作回顾
端到端自动驾驶
在自动驾驶的早期阶段,基于规则的方法采用了模块化设计,将系统划分为独立的组件——感知、预测、规划和控制——并通过预定义规则相互连接。虽然这种架构具有可解释性,但它会受到误差传播和有限场景覆盖范围的影响。端到端规划方法逐渐用基于深度学习的子网络替代了诸如感知和规划等单独模块,同时保留必要的基于规则的约束。这种范式因其能够将感知、预测和规划统一到一个框架中,从而去掉手工设计的中间表示而受到关注。早期的工作通常会绕过感知和运动预测等中间任务。ST-P3 是第一个在基于环视相机的框架中引入显式中间表示的工作。UniAD 进一步通过基于 transformer 的 query 交互统一了感知、预测和规划,并在 nuScenes 基准上取得了很强的性能。最近的进展探索了多样化的表示方式和学习范式。VAD 提出了向量化场景表示,而 VADv2 引入了带有 4K 轨迹词表和冲突感知损失的概率化规划,在 CARLA Town05 上实现了最先进的闭环性能。SparseDrive 通过稀疏场景表示和并行运动规划器提升了效率。GenAD 采用生成式框架,将运动预测和规划统一起来,使用基于实例的场景表示和通过变分自编码器进行的结构化潜变量建模。最近,随着更具挑战性的真实世界基准和基于 CARLA 的闭环仿真基准的引入,越来越多的研究探索了端到端自动驾驶的不同方法,例如扩散策略、视觉语言模型、纯 transformer 架构、强化学习、闭环仿真、视觉-语言-动作模型、双系统、专家混合、流匹配、测试时训练、弥合开环训练与闭环部署之间的差距、轨迹选择、迭代规划和世界模型。这些现有方法主要遵循 “感知–规划” 范式,旨在通过分别增强感知和规划能力来提升性能。相比之下,我们提出的 VeteranAD 采用了 perception-in-plan” 范式,将感知直接整合到规划过程中,从而实现更有效的、面向规划的优化。
闭环与开环基准
闭环和开环基准是两种用于评估自动驾驶系统的方式。闭环评估会模拟完整的反馈回路——从传感器输入到控制执行——使用的工具包括 nuPlan、Waymax、CARLA、Bench2Drive 和 MetaDrive。这些模拟器可以用于衡量驾驶指标,例如碰撞率和乘坐舒适度。然而,模拟逼真的交通行为和传感器数据仍然是一个挑战。基于图形的渲染会引入域间差距,而基于数据驱动的传感器模拟则存在视觉质量有限的问题。开环评估则是在离线数据集(如 nuScenes)上测试轨迹预测,不与环境进行交互。
VeteranAD算法详解
一些先验知识
任务表述
端到端自动驾驶以传感器数据(如视觉和激光雷达)作为输入,并生成未来的规划轨迹作为输出。规划任务通常涉及生成多模态轨迹,以表示多种可能的未来行驶方案。辅助任务,例如检测、地图分割,以及对周围交通参与者的运动预测,也会被整合到端到端模型中,以帮助模型更好地学习场景特征,从而获得安全的规划结果。
框架概览
VeteranAD 框架如图2所示。它由三个主要部分组成:图像编码器(image encoder)、规划感知整体感知模块(Planning-Aware Holistic Perception) 和 局部自回归轨迹规划模块(Localized Autoregressive Trajectory Planning)。
首先,图像编码器从多视角图像中提取特征,生成图像特征、BEV 特征以及周围交通体特征。接着,多模态轨迹查询由锚定轨迹(anchored trajectories)初始化。规划感知整体感知模块会在轨迹查询与图像特征、BEV 特征和交通体特征之间进行位置引导的交互。随后,局部自回归轨迹规划模块以自回归的方式运作,在每个时间步执行感知并调整锚定轨迹点,最终生成完整的规划输出。
图像编码
给定多视角图像 ,其中 表示视觉视角数量,图像编码器首先提取多视角图像特征,记为 。然后,使用 LSS 方法从图像特征中生成鸟瞰图特征 。接着,通过一个简单的多层感知机 (MLP) 解码器将 BEV 特征解码为 BEV 分割图,并使用真实标签分割图进行监督。周围交通体特征 被初始化后,会通过 Transformer 块与 BEV 特征交互。最后,一个简单的 MLP 解码器将交通体特征解码为 bounding box,并通过真实的交通体 bounding box 进行监督。过程如下:
在得到这些特征之后,多模态轨迹查询 由锚定轨迹初始化,其中 表示规划模式的数量, 表示特征通道数。锚定轨迹是从真实规划轨迹中聚类得到的。
规划感知整体感知
感知模块使得轨迹查询能够全面捕获场景和交通元素,例如车道、车辆、行人和障碍物,从而确保规划的准确性和安全性。给定轨迹查询 ,我们采用三类交叉注意力机制与图像特征、BEV 特征和交通体特征进行交互。
位置引导的图像交叉注意力和 BEV 交叉注意力 用于在潜在规划轨迹上选择性地收集特征。首先,从锚定轨迹中提取时间 的引导点 ,作为规划先验。这些引导点随后被投影到图像和 BEV 坐标上。它们被作为轨迹查询与图像和 BEV 特征之间交叉注意力的参考点。过程如下:
位置引导的交通体交叉注意力 则用于基于距离有效地区分周围交通体的重要性。如在图像编码部分介绍的那样, bounding box 被解码出来,从而可以得到交通体的位置。然后,计算周围交通体与自车之间的两两相对距离,基于引导点和解码的交通体位置。
相对距离首先通过一个 MLP 编码为相对距离特征 。该特征与交通体特征和轨迹查询拼接后,形成距离感知的交通体特征 。随后应用交叉注意力机制,在维度对齐后,使轨迹查询与距离感知交通体特征进行交互。整体过程如下:
局部自回归轨迹规划
轨迹规划模块的目标是利用锚定轨迹作为粗略的规划轨迹,并结合场景特征生成最终的规划轨迹。对于未来 步的锚定多模态轨迹,我们得到轨迹点集 ,其中 ,与前文所述相同。这些轨迹点作为轨迹规划的引导点。该过程以自回归方式运作。在每个时间步 ,模块将轨迹查询 和引导点 作为输入,同时规划感知整体感知模块与轨迹查询和场景特征交互。随后,一个 MLP 轨迹解码器被用来预测时间步 的未来轨迹点。模型估计偏移量 来修正引导点,从而生成最终的规划轨迹点 ,如下所示:
最终,我们得到规划轨迹点集 ,形成最终的规划轨迹 。在最后一个时间步 ,模块会解码出多模态轨迹的分类分数 。为了对轨迹点的运动建模,我们采用 Motion-Aware Layer Normalization,根据时间 的引导点将轨迹查询从 转换为 。
端到端学习
损失函数由四个部分组成:
BEV 分割图损失
交通体 bounding box损失
规划回归损失
规划分类损失
BEV 分割图损失使用交叉熵损失计算。交通体 bounding box损失分为位置回归的 L1 损失和类别分类的二元交叉熵损失。规划回归损失为 L1 损失,规划分类损失则使用 Focal Loss 计算。端到端训练的整体损失函数如下:
其中,
实验及结论
实验设置
数据集
我们在 NAVSIM 和 Bench2Drive 数据集上进行训练和验证。
评测指标
对于 NAVSIM 数据集,我们使用官方基准中定义的 PDM Score (PDMS) 来评估方法。PDMS 由多个子指标组成:
NC (No At-Fault Collisions,无责任碰撞)
DAC (Drivable Area Compliance,可行驶区域符合度)
TTC (Time-to-Collision,碰撞时间)
Comf. (Comfort,舒适度)
EP (Ego Progress,自车行驶进度)
对于 Bench2Drive 数据集,遵循官方评测协议:
在 开环评测 中,我们使用 **平均 L2 误差 (Average L2 Error)**;
在 闭环评测 中,我们采用 Driving Score 和 Success Rate 两个指标。
实现细节
模型在 8 张 NVIDIA GeForce RTX 3090 GPU 上训练,总 batch size 为 32,训练 16 个 epoch。学习率和权重衰减分别设为
与 SOTA 的比较
如表 1 所示,VeteranAD在 NAVSIM navtest 数据集上与 SOTA 进行了比较。在相同的 ResNet-34 backbone 下,VeteranAD 的 PDM Score (PDMS) 达到 90.2,显著优于之前的学习方法。仅使用视觉输入时,VeteranAD 比 UniAD 高出 6.8 PDMS,展现出其卓越性能。即使与 SOTA,如 DiffusionDrive 和 WoTE 相比,VeteranAD 在所有评测指标上也取得了更高的分数。这些结果突出了我们提出的 “perception-in-plan” 设计在端到端规划中的有效性。
我们还在 CARLA v2 的 Bench2Drive 基准上进行了开环和闭环评测。如表 2 所示,在开环评测中,VeteranAD 的平均 L2 误差为 0.60,优于所有基线方法。在闭环评测中,VeteranAD 的性能具有竞争力,可与 SOTA 方法如 DriveTransformer 和 DriveAdapter 相媲美。这些强有力的结果展示了我们方法的有效性和泛化能力。
消融实验
模块效果
表 3 展示了对两个核心模块的消融实验结果:规划感知整体感知模块 和 局部自回归轨迹规划模块。结果包括完整模型的性能以及单独使用各模块的效果。第一行中,将感知模块中的位置引导注意力替换为普通注意力,会导致 PDMS 下降,说明使用来自锚定轨迹的引导点作为规划先验的重要性。第二行显示,若去掉引导点,直接输出规划轨迹而非预测偏移,也会造成显著的性能下降。这些结果表明,锚定轨迹提供的引导点在准确规划中起到关键作用。当两个模块同时应用时,PDMS 达到 90.2,展示了它们的互补性和整体有效性。
不同注意力类型的影响
我们研究了图像特征、BEV 特征和交通体特征上的不同注意力机制的影响,结果如表 4 所示。去掉任意一种注意力都会导致性能下降,其中移除 BEV 注意力的影响最大,说明道路信息在规划中的关键作用。每种注意力机制都能捕获与特定交通元素(如车道、周围车辆和静态障碍物)的交互。三种注意力机制结合时,模型取得最佳性能。
AR 与 NAR 的比较
自回归(AR)解码过程是 “perception-in-plan” 框架的核心,它通过逐步预测未来轨迹,同时在每个时间步进行针对性感知。我们进行了消融实验,将轨迹规划模块中的 AR 方法替换为非自回归(NAR)方法,结果如表 5 所示。在 NAR 设置下,轨迹查询与场景特征同时进行一次性交互,使用所有锚定轨迹点作为引导,这相当于传统的 “感知–规划” 范式。结果显示,AR 方法始终优于 NAR 方法。这是因为在 AR 设置下,轨迹查询每次只关注一个轨迹点,使得逐步调整更加精细,感知与规划之间耦合更紧密。而 NAR 方法同时处理所有点,使得感知对规划意图的响应较弱,导致性能不佳。这一显著改进突出了我们基于 AR 的、面向规划设计的有效性。
在 nuScenes 数据集上的比较
为了进一步验证 VeteranAD 的有效性和泛化能力,我们在 nuScenes 数据集上进行了开环规划实验,结果如表 6 所示。我们在 VAD 的基础上集成了我们的设计,并遵循其训练和推理流程。结果表明,我们的方法将平均 L2 位移误差降低了 0.10 m,并将平均碰撞率减少了 27.2%,相比于 VAD 具有显著提升。
效率分析
我们将 VeteranAD 与 SOTA 方法 DiffusionDrive 进行比较,遵循其官方训练和推理协议。我们的模型训练约需 8 小时,而 DiffusionDrive 需 9 小时。在推理阶段,VeteranAD 的平均延迟为 22.3 ms,而 DiffusionDrive 为 18.4 ms。尽管在训练和推理效率上相当,VeteranAD 的性能却显著更优。
定性结果
如图 3 所示,在 NAVSIM 数据集上,我们的模型能够准确规划复杂操作,如左转和变道。
如图 4 所示,在 Bench2Drive 数据集的闭环仿真中,当一辆原本停放的车辆开始并入道路时,我们的模型能够减速避让,避免碰撞。
总结
在本文中,我们提出了一种新颖的 “perception-in-plan(感知融入规划)” 范式用于端到端自动驾驶,并基于此设计了 VeteranAD 框架。与以往普遍遵循的 “感知–规划” 范式不同,我们的方法将感知直接嵌入规划过程中,使得感知能够更好地服务于规划目标。具体而言,我们引入了 规划感知整体感知模块(Planning-Aware Holistic Perception),它利用规划先验轨迹来引导感知过程;同时,我们设计了 局部自回归轨迹规划模块(Localized Autoregressive Trajectory Planning),能够逐步生成未来轨迹,并在每个时间步结合针对性的感知结果进行优化。
通过这一新范式,VeteranAD 在 NAVSIM 和 Bench2Drive 两个具有挑战性的基准上均实现了最先进的性能。实验结果表明,感知与规划的紧密耦合能够显著提升端到端规划的准确性和安全性。我们希望这项工作能够为未来的研究提供启发,推动端到端自动驾驶系统向更高效、更安全和更可靠的方向发展。
自动驾驶之心
论文辅导来啦

自驾交流群来啦!
自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com
1951

被折叠的 条评论
为什么被折叠?



