nuScenes SOTA!复旦BridgeAD:历史预测与规划无缝融合助力端到端登顶(CVPR‘25)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享复旦大学&东方理工学院最新的工作!首创新一代自动驾驶技术,历史预测与规划无缝融合,安全性能跃升—BridgeAD!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

论文作者 | Bozhou Zhang等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

端到端自动驾驶通过可微框架统一多任务,支持以规划为导向的优化,近年来受到广泛关注。现有方法主要通过密集的历史鸟瞰图(BEV)特征或稀疏的记忆库查询来聚合历史信息,沿用了检测任务的传统范式。然而,我们认为这些范式要么忽略了运动规划中的历史信息,要么未能与其多步骤特性(需预测或规划多个未来时间步)有效对齐。基于“未来是过去的延续”这一理念,我们提出BridgeAD方法,将运动与规划查询重构为多步骤查询,以区分每个未来时间步的查询目标。这一设计使得历史预测与规划信息能够根据时间步针对性地应用于端到端系统的不同模块,从而提升感知与运动规划的协同性。

具体而言,当前帧的历史查询与感知模块结合,未来帧的查询则与运动规划模块集成。通过这种方式,我们在每个时间步聚合历史信息,弥合了过去与未来的鸿沟,增强了端到端自动驾驶管线的整体连贯性与准确性。在nuScenes数据集上的大量实验(包括开环和闭环设置)表明,BridgeAD取得了最先进的性能。

论文简介

自动驾驶技术近年来发展迅速。传统系统采用模块化方法,将任务划分为感知、预测和规划,虽简化了各任务,但可能中断信息流并导致误差累积。端到端方法统一这些任务,支持以规划为导向的优化,提升了系统一致性,因而受到越来越多的关注。

现有端到端方法主要沿用检测任务的范式,利用时序信息增强性能。这些范式大致分为两类:密集方法聚合历史鸟瞰图(BEV)特征,稀疏方法通过稀疏记忆库查询交互。然而,我们认为这些范式存在不足。如图1(a)所示,前者仅在感知模块中利用时序信息,忽略了其在运动规划中的重要性;后者与历史运动规划查询的交互较为粗糙,每个查询对应一个轨迹实例,未与运动规划的多步骤特性(需预测或规划多个未来时间步以适应动态代理状态)对齐,导致次优结果。

本文提出BridgeAD框架(图1(b)),通过历史预测与规划增强端到端自动驾驶。基于“未来是过去的延续”这一理念,我们首先将运动与规划查询分解为多步骤查询,区分每个未来时间步的目标。随后,当前帧的运动查询(源自历史预测)与感知模块结合以提升感知精度,未来帧的运动与规划查询(源自历史预测与规划)则与运动规划模块集成,通过步骤级交互优化预测与规划结果。此外,运动与规划查询在对应时间步的交互确保了周围代理预测与自车规划的一致性。通过这种方式,BridgeAD在每个时间步聚合历史信息,弥合了过去与未来的鸿沟,增强了端到端自动驾驶管线的整体连贯性与准确性。

主要贡献如下:

  1. 多步骤查询表示:将运动与规划查询分解为多步骤形式,针对每个未来时间步利用历史信息。

  2. 历史信息融合框架:提出BridgeAD,通过历史预测与规划增强端到端自动驾驶管线。

  3. 实验验证:在nuScenes数据集的开环与闭环测试中均达到最优性能。

相关工作回顾

感知
感知模块从原始传感器数据中提取有效信息,主要包括3D检测、多目标跟踪(MOT)和在线地图构建。对于3D检测,一系列基于LSS的方法通过深度估计从2D图像特征生成BEV(鸟瞰图)表示;其他方法则使用预定义的BEV查询进行特征采样。近期方法采用稀疏方法,利用稀疏查询进行时空聚合。对于多目标跟踪,部分工作采用“检测-跟踪”范式,而另一些通过轨迹查询持续建模跟踪实例。在线地图构建方面,HDMapNet通过BEV语义分割结合后处理实现,VectorMapNet采用两阶段自回归Transformer构建矢量化地图,MapTR及其后续工作将地图元素视为置换等价的点集,取得了显著性能。

运动预测
运动预测旨在预测周围智能体的多模态未来轨迹。受检测任务中对象查询的启发,部分方法采用以查询为中心的范式,在运动预测基准中表现优异。一些工作通过引入历史预测或流式处理提升预测性能,其他方法探索从多视角图像端到端预测轨迹。ViP3D利用智能体查询联合执行跟踪与预测,输入包括图像和HD地图。

规划
规划方法分为基于规则和基于学习两类,在规划基准中广泛研究。部分工作探索利用信念状态改进规划或决策。近期,端到端规划因能统一感知、预测和规划而备受关注。早期方法常绕过中间任务(如感知和运动预测)。ST-P3结合地图感知、BEV占用预测和轨迹规划生成自车路径。UniAD通过统一查询设计显著推进端到端自动驾驶,在多项任务中表现突出。VAD采用矢量化地图表示提升效率,GenAD通过生成式框架在潜在空间中预测轨迹,SparseDrive采用稀疏场景表示和并行规划结构。然而,这些方法未充分探索如何利用历史信息提升连续驾驶中的规划连续性与精度。本文的BridgeAD首次将历史预测与规划整合至端到端设计中。

方法详解

概述

BridgeAD框架如图2所示,包含三个主要组件:图像编码器、历史增强感知模块和历史增强运动规划模块。首先,图像编码器从多视角图像中提取多尺度空间特征。随后,历史增强感知模块通过稀疏方法执行3D目标检测、跟踪和在线矢量化地图构建,并通过历史Mot2Det融合模块整合历史信息。最后,历史增强运动规划模块由历史增强运动预测模块、历史增强规划模块和步骤级Mot2Plan交互模块组成,利用历史数据生成运动预测和规划输出。此外,内存队列缓存历史运动和规划查询,为上述模块提供历史信息支持。

多步骤运动与规划查询缓存

BridgeAD的核心设计基于多步骤运动与规划查询的表示。现有方法将多模态运动查询表示为 其中  分别表示周围智能体数量、预测模式数和特征通道数。每个查询对应一条轨迹。相比之下,我们定义运动查询为

同步定位地图构建(SLAM)技术为移动机器人或自主载具在未知空间中的导航提供了核心支撑。借助该技术,机器人能够在探索过程中实时构建环境地图并确定自身位置。典型的SLAM流程涵盖传感器数据采集、数据处理、状态估计及地图生成等环节,其核心挑战在于有效处理定位环境建模中的各类不确定性。 Matlab作为工程计算数据可视化领域广泛应用的数学软件,具备丰富的内置函数专用工具箱,尤其适用于算法开发仿真验证。在SLAM研究方面,Matlab可用于模拟传感器输出、实现定位建图算法,并进行系统性能评估。其仿真环境能显著降低实验成本,加速算法开发验证周期。 本次“SLAM-基于Matlab的同步定位建图仿真实践项目”通过Matlab平台完整再现了SLAM的关键流程,包括数据采集、滤波估计、特征提取、数据关联地图更新等核心模块。该项目不仅呈现了SLAM技术的实际应用场景,更为机器人导航自主移动领域的研究人员提供了系统的实践参考。 项目涉及的核心技术要点主要包括:传感器模型(如激光雷达视觉传感器)的建立应用、特征匹配数据关联方法、滤波器设计(如扩展卡尔曼滤波粒子滤波)、图优化框架(如GTSAMCeres Solver)以及路径规划避障策略。通过项目实践,参者可深入掌握SLAM算法的实现原理,并提升相关算法的设计调试能力。 该项目同时注重理论向工程实践的转化,为机器人技术领域的学习者提供了宝贵的实操经验。Matlab仿真环境将复杂的技术问题可视化可操作化,显著降低了学习门槛,提升了学习效率质量。 实践过程中,学习者将直面SLAM技术在实际应用中遇到的典型问题,包括传感器误差补偿、动态环境下的建图定位挑战以及计算资源优化等。这些问题的解决对推动SLAM技术的产业化应用具有重要价值。 SLAM技术在工业自动化、服务机器人、自动驾驶及无人机等领域的应用前景广阔。掌握该项技术不仅有助于提升个人专业能力,也为相关行业的技术发展提供了重要支撑。随着技术进步应用场景的持续拓展,SLAM技术的重要性将日益凸显。 本实践项目作为综合性学习资源,为机器人技术领域的专业人员提供了深入研习SLAM技术的实践平台。通过Matlab这一高效工具,参者能够直观理解SLAM的实现过程,掌握关键算法,并将理论知识系统应用于实际工程问题的解决之中。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值