摘要: 基于视觉的自动驾驶因其令人满意的性能和低成本显示出巨大潜力。大多数现有方法采用密集表示(例如,鸟瞰图)或稀疏表示(例如,实例框)进行决策,这些方法在全面性和效率之间存在权衡。本文探索了一个以高斯为中心的端到端自动驾驶(GaussianAD)框架,并利用3D语义高斯广泛但稀疏地描述场景。本文用均匀的3D高斯初始化场景,并使用周围视图图像逐步细化它们以获得3D高斯场景表示。然后使用稀疏卷积高效地执行3D感知(例如,3D检测,语义地图构建)。本文为具有动态语义的高斯预测3D流,并据此规划自我轨迹,目标是未来场景预测。GaussianAD可以以端到端的方式进行训练,当可用时可以选择性地使用感知标签。在广泛使用的nuScenes数据集上进行的广泛实验验证了GaussianAD在各种任务上的有效性,包括运动规划、3D占用预测和4D占用预测。
©️【深蓝AI】编译
论文标题:GaussianAD: Gaussian-Centric End-to-End Autonomous Driving
论文作者:Wenzhao Zheng,Junjie Wu, Yao Zheng, Sicheng Zuo, Zixun Xie,Longchao Yang, Yong Pan, Zhihui Hao, Peng Jia, Xianpeng Lang, Shanghang Zhang
论文链接:https://arxiv.org/pdf/2412.1482
介绍
基于视觉的自动驾驶因其类似人类驾驶和经济传感器配置而成为有前景的方向。尽管缺少深度信息,但深度网络能从RGB相机推断结构信息,并在3D目标检测、高清地图构建和3D占用预测等任务中表现强劲。研究正从模块化转向端到端范式,直接从图像输入规划未来轨迹,减少信息损失,设计2D图像的3D场景表示变得重要。
传统方法通过压缩3D场景高度维度获得鸟瞰图表示,而新方法探索稀疏查询描述周围场景,但无法捕捉3D环境的细粒度结构。有些方法使用三视角或体素表示场景,但密集建模导致计算开销大。GaussianAD框架使用3D语义高斯作为场景表示,虽稀疏但能细粒度建模,有助于下游任务。本文探索了从3D高斯表示进行感知、预测和规划的方法。3D高斯流模型预测每个高斯的未来位移,整合信息规划自我轨迹。3D高斯表示的明确性直接计算预测的未来场景,与真实场景比较作为监督。GaussianAD是首个探索明确稀疏点基架构的端到端自动驾驶框架,在nuScenes数据集上验证了其有效性,实现了高效率的端到端运动规划。
▲图1| 自动驾驶不同流程的比较©️【深蓝AI】编译
相关工作
自动驾驶中的感知、预测和规划是关键环节。感知阶段通过传感器准确获取周围环境信息,主要分为3D目标检测和语义地图重建,分别用于识别动态对象的3D位置和静态地图元素。为了更精细地描述场景,新方法探索了体素和三视角图等表示方式来提升3D占用预测。
预测方面,基于过去的位置和地图信息预估交通参与者的未来运动至关重要。现有技术从早期的BEV图像处理发展到采用图神经网络或变换器进行信息聚合,再到直接端到端的传感器输入预测,不断提高预测精度。
在规划上,方法分为基于规则和基于学习两类。基于学习的方法近年来因大规模数据训练的优势而受到重视,模仿型规划器作为简单有效的方案得到广泛应用。最新的研究引入高斯流以全面捕捉动态与静态元素的变化,提出了以3D高斯为信息载体的新流程,旨在提供更为精准的决策支持。
本文方法
3D 场景表示对驾驶很重要
自动驾驶的目标是根据一系列场景观察生成安全且一致的控制信号(例如,油门、刹车、转向)。虽然场景观察
可以通过多种传感器获得,如摄像头和激光雷达,但本文主要关注基于视觉的自动驾驶,特别是来自周围摄像头的数据,因为其具有高的信息密度和较低的传感器成本。这种基于视觉的方法利用环绕车辆的摄像头来捕捉环境信息,为自动驾驶系统提供必要的输入以做出正确的驾驶决策。 假设有一个表现良好的控制器,大多数自动驾驶模型主要关注从当前和历史观测值
学习映射
到未来的自我轨迹
:
其中表示当前时间戳,
是历史帧的数量,
是预测的未来帧的数量。每个航点
由鸟瞰图中确定。 传统的自动驾驶方法将
分解为感知、预测和规划模块,并在连接之前分别训练它们:
其中是场景描述,例如其他代理的实例边界框或周围环境的地图元素。场景描述
通常只提供场景的部分表示,导致信息丢失。
这些模块的分别训练进一步加剧了这一问题,因为不同的任务专注于提取不同的信息。提供给规划模块的不全面信息可能会偏颇自动驾驶模型的决策过程。这促使了从模块化框架向端到端框架的转变,后者通过可微分的方式连接并联合学习感知、预测和规划模块: