点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享复旦大学&东方理工学院最新的工作!首创新一代自动驾驶技术,历史预测与规划无缝融合,安全性能跃升—BridgeAD!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群
论文作者 | Bozhou Zhang等
编辑 | 自动驾驶之心
写在前面 & 笔者的个人理解
端到端自动驾驶通过可微框架统一多任务,支持以规划为导向的优化,近年来受到广泛关注。现有方法主要通过密集的历史鸟瞰图(BEV)特征或稀疏的记忆库查询来聚合历史信息,沿用了检测任务的传统范式。然而,我们认为这些范式要么忽略了运动规划中的历史信息,要么未能与其多步骤特性(需预测或规划多个未来时间步)有效对齐。基于“未来是过去的延续”这一理念,我们提出BridgeAD方法,将运动与规划查询重构为多步骤查询,以区分每个未来时间步的查询目标。这一设计使得历史预测与规划信息能够根据时间步针对性地应用于端到端系统的不同模块,从而提升感知与运动规划的协同性。
具体而言,当前帧的历史查询与感知模块结合,未来帧的查询则与运动规划模块集成。通过这种方式,我们在每个时间步聚合历史信息,弥合了过去与未来的鸿沟,增强了端到端自动驾驶管线的整体连贯性与准确性。在nuScenes数据集上的大量实验(包括开环和闭环设置)表明,BridgeAD取得了最先进的性能。
论文简介
自动驾驶技术近年来发展迅速。传统系统采用模块化方法,将任务划分为感知、预测和规划,虽简化了各任务,但可能中断信息流并导致误差累积。端到端方法统一这些任务,支持以规划为导向的优化,提升了系统一致性,因而受到越来越多的关注。
现有端到端方法主要沿用检测任务的范式,利用时序信息增强性能。这些范式大致分为两类:密集方法聚合历史鸟瞰图(BEV)特征,稀疏方法通过稀疏记忆库查询交互。然而,我们认为这些范式存在不足。如图1(a)所示,前者仅在感知模块中利用时序信息,忽略了其在运动规划中的重要性;后者与历史运动规划查询的交互较为粗糙,每个查询对应一个轨迹实例,未与运动规划的多步骤特性(需预测或规划多个未来时间步以适应动态代理状态)对齐,导致次优结果。
本文提出BridgeAD框架(图1(b)),通过历史预测与规划增强端到端自动驾驶。基于“未来是过去的延续”这一理念,我们首先将运动与规划查询分解为多步骤查询,区分每个未来时间步的目标。随后,当前帧的运动查询(源自历史预测)与感知模块结合以提升感知精度,未来帧的运动与规划查询(源自历史预测与规划)则与运动规划模块集成,通过步骤级交互优化预测与规划结果。此外,运动与规划查询在对应时间步的交互确保了周围代理预测与自车规划的一致性。通过这种方式,BridgeAD在每个时间步聚合历史信息,弥合了过去与未来的鸿沟,增强了端到端自动驾驶管线的整体连贯性与准确性。
主要贡献如下:
多步骤查询表示:将运动与规划查询分解为多步骤形式,针对每个未来时间步利用历史信息。
历史信息融合框架:提出BridgeAD,通过历史预测与规划增强端到端自动驾驶管线。
实验验证:在nuScenes数据集的开环与闭环测试中均达到最优性能。
相关工作回顾
感知
感知模块从原始传感器数据中提取有效信息,主要包括3D检测、多目标跟踪(MOT)和在线地图构建。对于3D检测,一系列基于LSS的方法通过深度估计从2D图像特征生成BEV(鸟瞰图)表示;其他方法则使用预定义的BEV查询进行特征采样。近期方法采用稀疏方法,利用稀疏查询进行时空聚合。对于多目标跟踪,部分工作采用“检测-跟踪”范式,而另一些通过轨迹查询持续建模跟踪实例。在线地图构建方面,HDMapNet通过BEV语义分割结合后处理实现,VectorMapNet采用两阶段自回归Transformer构建矢量化地图,MapTR及其后续工作将地图元素视为置换等价的点集,取得了显著性能。
运动预测
运动预测旨在预测周围智能体的多模态未来轨迹。受检测任务中对象查询的启发,部分方法采用以查询为中心的范式,在运动预测基准中表现优异。一些工作通过引入历史预测或流式处理提升预测性能,其他方法探索从多视角图像端到端预测轨迹。ViP3D利用智能体查询联合执行跟踪与预测,输入包括图像和HD地图。
规划
规划方法分为基于规则和基于学习两类,在规划基准中广泛研究。部分工作探索利用信念状态改进规划或决策。近期,端到端规划因能统一感知、预测和规划而备受关注。早期方法常绕过中间任务(如感知和运动预测)。ST-P3结合地图感知、BEV占用预测和轨迹规划生成自车路径。UniAD通过统一查询设计显著推进端到端自动驾驶,在多项任务中表现突出。VAD采用矢量化地图表示提升效率,GenAD通过生成式框架在潜在空间中预测轨迹,SparseDrive采用稀疏场景表示和并行规划结构。然而,这些方法未充分探索如何利用历史信息提升连续驾驶中的规划连续性与精度。本文的BridgeAD首次将历史预测与规划整合至端到端设计中。
方法详解
概述
BridgeAD框架如图2所示,包含三个主要组件:图像编码器、历史增强感知模块和历史增强运动规划模块。首先,图像编码器从多视角图像中提取多尺度空间特征。随后,历史增强感知模块通过稀疏方法执行3D目标检测、跟踪和在线矢量化地图构建,并通过历史Mot2Det融合模块整合历史信息。最后,历史增强运动规划模块由历史增强运动预测模块、历史增强规划模块和步骤级Mot2Plan交互模块组成,利用历史数据生成运动预测和规划输出。此外,内存队列缓存历史运动和规划查询,为上述模块提供历史信息支持。
多步骤运动与规划查询缓存
BridgeAD的核心设计基于多步骤运动与规划查询的表示。现有方法将多模态运动查询表示为 其中 、 、 分别表示周围智能体数量、预测模式数和特征通道数。每个查询对应一条轨迹。相比之下,我们定义运动查询为
复旦BridgeAD:历史预测与规划融合助力自动驾驶

最低0.47元/天 解锁文章
8532

被折叠的 条评论
为什么被折叠?



