端到端新方向,以高斯为中心的自动驾驶框架——GaussianAD

摘要: 基于视觉的自动驾驶因其令人满意的性能和低成本显示出巨大潜力。大多数现有方法采用密集表示(例如,鸟瞰图)或稀疏表示(例如,实例框)进行决策,这些方法在全面性和效率之间存在权衡。本文探索了一个以高斯为中心的端到端自动驾驶(GaussianAD)框架,并利用3D语义高斯广泛但稀疏地描述场景。本文用均匀的3D高斯初始化场景,并使用周围视图图像逐步细化它们以获得3D高斯场景表示。然后使用稀疏卷积高效地执行3D感知(例如,3D检测,语义地图构建)。本文为具有动态语义的高斯预测3D流,并据此规划自我轨迹,目标是未来场景预测。GaussianAD可以以端到端的方式进行训练,当可用时可以选择性地使用感知标签。在广泛使用的nuScenes数据集上进行的广泛实验验证了GaussianAD在各种任务上的有效性,包括运动规划、3D占用预测和4D占用预测。

©️【深蓝AI】编译

论文标题:GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

论文作者:Wenzhao Zheng,Junjie Wu, Yao Zheng, Sicheng Zuo, Zixun Xie,Longchao Yang, Yong Pan, Zhihui Hao, Peng Jia, Xianpeng Lang, Shanghang Zhang

论文链接:https://arxiv.org/pdf/2412.1482

介绍

基于视觉的自动驾驶因其类似人类驾驶和经济传感器配置而成为有前景的方向。尽管缺少深度信息,但深度网络能从RGB相机推断结构信息,并在3D目标检测、高清地图构建和3D占用预测等任务中表现强劲。研究正从模块化转向端到端范式,直接从图像输入规划未来轨迹,减少信息损失,设计2D图像的3D场景表示变得重要。

传统方法通过压缩3D场景高度维度获得鸟瞰图表示,而新方法探索稀疏查询描述周围场景,但无法捕捉3D环境的细粒度结构。有些方法使用三视角或体素表示场景,但密集建模导致计算开销大。GaussianAD框架使用3D语义高斯作为场景表示,虽稀疏但能细粒度建模,有助于下游任务。本文探索了从3D高斯表示进行感知、预测和规划的方法。3D高斯流模型预测每个高斯的未来位移,整合信息规划自我轨迹。3D高斯表示的明确性直接计算预测的未来场景,与真实场景比较作为监督。GaussianAD是首个探索明确稀疏点基架构的端到端自动驾驶框架,在nuScenes数据集上验证了其有效性,实现了高效率的端到端运动规划。

▲图1| 自动驾驶不同流程的比较©️【深蓝AI】编译

相关工作

自动驾驶中的感知、预测和规划是关键环节。感知阶段通过传感器准确获取周围环境信息,主要分为3D目标检测和语义地图重建,分别用于识别动态对象的3D位置和静态地图元素。为了更精细地描述场景,新方法探索了体素和三视角图等表示方式来提升3D占用预测。

预测方面,基于过去的位置和地图信息预估交通参与者的未来运动至关重要。现有技术从早期的BEV图像处理发展到采用图神经网络或变换器进行信息聚合,再到直接端到端的传感器输入预测,不断提高预测精度。

在规划上,方法分为基于规则和基于学习两类。基于学习的方法近年来因大规模数据训练的优势而受到重视,模仿型规划器作为简单有效的方案得到广泛应用。最新的研究引入高斯流以全面捕捉动态与静态元素的变化,提出了以3D高斯为信息载体的新流程,旨在提供更为精准的决策支持。

本文方法

3D 场景表示对驾驶很重要

自动驾驶的目标是根据一系列场景观察\{o\}生成安全且一致的控制信号(例如,油门、刹车、转向)。虽然场景观察\{o\}可以通过多种传感器获得,如摄像头和激光雷达,但本文主要关注基于视觉的自动驾驶,特别是来自周围摄像头的数据,因为其具有高的信息密度和较低的传感器成本。这种基于视觉的方法利用环绕车辆的摄像头来捕捉环境信息,为自动驾驶系统提供必要的输入以做出正确的驾驶决策。 假设有一个表现良好的控制器,大多数自动驾驶模型主要关注从当前和历史观测值\{o\}学习映射f到未来的自我轨迹\{w\}:

\left\{o^{T-H},\ldots, o^{T}\right\}\xrightarrow{f}\left\{w^{T+1},\ldots, w^{T+F}\right\},\quad(1)

其中T表示当前时间戳,H是历史帧的数量,F是预测的未来帧的数量。每个航点w=\{x, y, \psi\}由鸟瞰图中确定。 传统的自动驾驶方法将f分解为感知、预测和规划模块,并在连接之前分别训练它们:

其中d是场景描述,例如其他代理的实例边界框或周围环境的地图元素。场景描述d通常只提供场景的部分表示,导致信息丢失。

这些模块的分别训练进一步加剧了这一问题,因为不同的任务专注于提取不同的信息。提供给规划模块的不全面信息可能会偏颇自动驾驶模型的决策过程。这促使了从模块化框架向端到端框架的转变,后者通过可微分的方式连接并联合学习感知、预测和规划模块:

其中r是场景表示。r通常由一组连续特征组成,并且比d提供了更全面的3D场景表示。

场景表示r在整个模型中传达信息,使得r的选择对端到端系统的性能至关重要。由于自动驾驶需要在3D空间中做出决策,场景表示应当是3D结构化的,并包含从输入图像推断出的3D结构信息。另一方面,3D空间通常是稀疏的,这导致了在设计时全面性和效率之间的权衡。

为了确保全面性,传统的鸟瞰图表示使用地图视图中的密集网格特征,并压缩高度维度以减少冗余。后续的方法进一步探索了更密集的表示方式,如体素或三视角图,以捕捉更详细和细粒度的3D信息。考虑到效率,最近的方法采用了稀疏查询,并专注于建模实例框和地图元素,这些是对决策最重要的因素。然而,被舍弃的信息仍然可能很重要(例如,不规则障碍物、交通灯、人体姿态),这与端到端自动驾驶的理念(即,信息流的全面性)相矛盾。

本文探讨了将3D高斯用作既全面又稀疏的场景表示,并提出了一种完全稀疏的框架用于端到端的感知、预测和规划,如图2所示。使用均匀高斯初始化3D场景序列,并采用4D稀疏卷积来实现高斯之间的交互。接着,从环绕视图的多帧图像观察中提取多尺度特征,并利用可变形交叉注意力机制将这些特征整合到3D高斯中。在获得作为场景表示的时间性3D高斯后,可以选择性地使用高斯到体素的映射进行密集任务(如3D语义占用),或使用稀疏卷积和最大池化进行稀疏任务(如3D目标检测、高清地图构建、运动预测)。本文使用一个流头为每个高斯预测一个3D流,并将它们汇总以用于轨迹规划。

▲图2| 所提出的GaussianAD框架概览©️【深蓝AI】编译

以高斯为中心的自动驾驶

3D 高斯表示。现有方法通常构建一个密集的3D特征来表示周围环境,并对每个3D体素使用相等的存储和计算资源进行处理,这往往由于不合理的资源配置而导致难以承受的开销。同时,这种密集的3D体素表示无法区分不同尺度的对象。不同于这些方法,本文遵循GaussianFormer的做法,即使用若干稀疏的3D语义高斯来表示一个自动驾驶场景。每个高斯实例化了一个由均值、协方差和语义逻辑值(logits)表征的语义高斯分布。这种稀疏明确的特征表示对于下游任务更为有利。

从图像中提取高斯。首先将3D高斯及其高维查询表示为可学习的向量。然后使用一个高斯编码器来迭代地增强这些表示。每个高斯编码器模块由三个组件构成:一个自编码模块,用于促进高斯之间的交互;一个图像交叉注意力模块,用于聚合视觉信息;以及一个精炼模块,用于微调高斯属性。与GaussianFormer不同的是,本文利用了一个包含4D稀疏卷积的时间编码器,将前一帧的高斯特征与当前帧对应的特征整合起来。

基于高斯的稀疏3D检测。由于3D高斯表示是一种稀疏场景表示,本文遵循VoxelNeXt,它直接基于稀疏体素特征预测3D对象。特别地,本文执行一个3D稀疏CNN网络V来编码3D高斯表示r。遵循GenAD在V(r)上使用一组代理令牌D解码3D对象a:

a = f_{a}(D, V(r)), \quad (4)

其中f_{a}表示结合全局交叉注意力机制来学习3D对象令牌和在学到的3D对象令牌上的3D对象解码器头d_{a}

从高斯构建稀疏地图。类似于使用高斯表示3D检测,本文采用一组地图标记M来表示语义地图。本文专注于三类地图元素(即,车道分隔线、道路边界和人行横道)。

其中f_m表示结合全局交叉注意力机制来学习地图令牌,以及在学到的地图令牌上的语义地图元素解码器头d_m的组合。

运动预测。运动预测模块通过预测其他交通参与者的未来轨迹来协助自我轨迹规划。本文通过让代理令牌D与地图令牌M通过交叉注意力层CA交互来获得运动令牌M_{o}

M_{o} = CA(D, M). \quad (6)

可以对运动令牌M_{o}应用运动解码器d_{mo},同时,学习到的运动令牌M_{o}被送入自我轨迹规划头。

场景预测的高斯流。此外,它表明中间表示r的场景预测在端到端自动驾驶中起着重要作用。本文从当前高斯表示r^{T}和预测的自我轨迹w^{T+N}预测未来的高斯表示作为高斯流r^{T+N}

r^{T+N} = f_{r}(r^{T}, w^{T+N}). \quad (7)

然后将预测的未来高斯表示r^{T+N}输入到占用解码器d_{occ}来预测未来的占用情况。对未来占用情况的监督在中间高斯表示上保证了场景预测能力,这最终提高了自我轨迹预测的性能。

端到端的GaussianAD框架

本小节介绍了GaussianAD的整体端到端框架。首先使用一组均匀分布的3D高斯G_0初始化场景,然后通过融合来自环绕视图图像的信息逐步精炼这些高斯,以获得高斯场景。如果提供了相应的注释,可以选择性地从中提取各种场景描述作为辅助任务。具体来说,本文采用高斯到体素的映射来获取密集描述(如3D占用预测)所需的密集体素特征,并使用完全稀疏卷积来获取稀疏描述(如3D边界框、地图元素)所需的稀疏查询。辅助感知监督的使用为场景表示引入了额外的约束和先验知识,以指导其学习过程。尽管如此,本文直接在3D高斯上预测未来的演变,以减少信息损失,并据此规划自车轨迹。GaussianAD通过稀疏但全面的3D高斯表示在整个模型中传递信息,为决策过程提供更多知识。GaussianAD的整体框架可以概括如下:

\begin{array}{l} \{o^{T-H}, \ldots, o^T\} \rightarrow r^T (\rightarrow r^T, d^T) \rightarrow \\ \{r^T, r^{T+1}, \ldots, r^{T+F}\} \rightarrow \{w^{T+1}, \ldots, w^{T+F}\}, \end{array} \quad (8)

其中\rightarrow r^T, d^T表示当d可用时,可以选择性地加入额外的感知监督。

对于训练,本文自适应地对从r中提取的场景描述d施加不同的感知损失:

J_{\text{perc}}(d, \hat{d}) = \lambda_{\text{occ}} J_{\text{occ}}(d, \hat{d}) + \lambda_{\text{det}} J_{\text{det}}(d, \hat{d}) + \lambda_{\text{map}} J_{\text{map}}(d, \hat{d}) + \lambda_{\text{motion}} J_{\text{motion}}(d, \hat{d}), \quad (9)

其中\lambda_{\text{occ}},\lambda_{\text{det}},\lambda_{\text{map}}\lambda_{\text{motion}}是平衡因子,如果监督不可用则等于0。d表示真实描述。使用3D占用预测损失作为J_{\text{occ}},3D检测损失作为J_{\text{det}},语义地图损失作为J_{\text{map}},以及运动损失作为J_{\text{motion}}。 由于3D高斯的显式表示,可以使用全局仿射变换来模拟在给定自我位置w下观察到的场景表示\tilde{r}。获得预测的未来场景表示\{r^T, r^{T+1}, \ldots, r^{T+F}\}后,使用计划的航点\{w^{T+1}, \ldots, w^{T+F}\}模拟未来的自我场景表示:

(F = t(r, w))^F, \quad (10)

然后使用模拟表示\{\tilde{r}\}^F和真实表示\{\hat{r}\}^F之间的差异作为损失:

其中\lambda_{re}\lambda_{perc}是平衡因子,J_{re}计算两个高斯表示之间的差异。\{\hat{r}\}^{F}可以从未来的观测\{o\}计算得出。\widetilde{d}(\tilde{r})表示从\tilde{r}中提取的预测描述d

预测的未来自我场景表示\{\tilde{r}\}^{F}也依赖于计划的轨迹\{w\}^{F}。因此,除了传统的轨迹损失外,还进一步采用预测损失用于规划:

其中\lambda_{\text{tra}}\lambda_{\text{pred}}是平衡因子,\hat{w}表示真实航点。本文采用GenAD中的轨迹损失作为J_{\text{tra}}提出的 GaussianAD 是一个灵活的框架,可以适应具有不同可用监督的各种情况,如图3所示。本文的框架可以通过选择性地对场景表示施加相应的监督来适应具有不同注释的训练数据。由于3D高斯的显式和结构性质,本文使用全局仿射变换来预测自车按照计划轨迹行驶时所观察到的未来场景表示。然后可以使用从未来观测中获得的未来感知标签或未来场景表示作为监督。这些监督比低维轨迹差异损失对计划轨迹施加了更强的约束。本文使用以下总体目标联合训练 GaussianAD:

J_{\text{GaussianAD}} = J_{\text{perc}} + J_{\text{pred}} + J_{\text{plan}}, \quad (13)

其中J_{\text{perc}}J_{\text{pred}}J_{\text{plan}}可以针对不同场景进行定制。

在推理过程中,GaussianAD 使用3D高斯表示完成端到端驾驶,以高效地在整个流程中传递信息。它为决策过程提供了全面的知识,并通过稀疏计算保持了高效率。

▲图3| 本文的GaussianAD训练说明©️【深蓝AI】编译

实验

数据集

本文使用广泛采用的nuScenes数据集进行了一系列实验,以评估GaussianAD。nuScenes数据集包含1000个驾驶序列,每个序列提供20秒由RGB和LiDAR传感器捕捉的视频。这些数据以20Hz的速率提供,但仅对2Hz的关键帧提供注释,包括语义地图构建和3D目标检测任务的标签。最近的SurroundOcc进一步补充了nuScenes,提供了3D语义占用注释。它为每个体素分配一个标签,涵盖18个类别,包括16个语义类、1个空类和1个未知类。

评估指标

本文使用L2位移误差和碰撞率来评估GaussianAD的规划性能,以便与现有的端到端方法进行公平比较。L2位移误差量化了计划轨迹与真实轨迹之间的差异,计算为L2距离。碰撞率表示自动驾驶车辆在遵循计划路径时与其他代理发生碰撞的频率。为了评估,使用2秒的5帧历史作为输入,并在未来1秒、2秒和3秒的时间步长上计算该指标。

实现细节

本文使用预训练权重来自FCOS3D的ResNet101-DCN作为骨干网络,并额外使用特征金字塔网络生成多尺度图像特征。模型接受分辨率为1600 × 900的图像输入,并将高斯的数量默认设置为25600。在训练阶段,使用AdamW优化器,权重衰减设为0.01。学习率从2e-4开始,并根据余弦调度下降。默认情况下,本文的模型在32个A100 GPU上训练,批量大小为8,共训练20个epoch。

结果与分析

端到端规划结果。在表1中提供了与最先进的端到端自动驾驶模型的比较。粗体数字和下划线数字分别表示最佳和次佳结果。本文还报告了VAD 使用的指标,它计算每个时间戳所有先前帧的平均结果。表1显示,本文的方法在L2指标上达到了最佳性能,并在碰撞率指标上取得了具有竞争力的结果。特别是,GaussianAD在使用相同的监督信号的情况下,大幅超越了OccNet。尽管缺少运动标签,GaussianAD通过预测高斯流来模拟未来的场景,使得能够利用感知标签进行运动任务。这迫使模型更多地考虑未来的交互,从而相对于OccNet实现了显著的改进。

▲表1|与nuScenes验证集上的最先进方法相比的开环运动规划结果©️【深蓝AI】编译

3D占用预测。本文也提供了其他感知任务的结果,尽管它们不是重点。本文采用平均精度(mAP)作为3D目标检测任务的指标。使用平均交并比(mIoU)和交并比(IoU)来评估3D占用预测,以衡量语义和结构重建的质量。表2将GaussianAD与最先进的端到端和3D占用预测方法进行了比较。GaussianAD在3D占用预测任务上表现出色,但在3D目标检测方面不如现有的端到端方法。这是因为不同的感知任务关注于场景描述的不同方面,并可能相互干扰。这也解释了本文的方法在碰撞指标上的表现不佳,该指标需要准确感知其他代理以避免碰撞。

▲表2| 3D感知比较©️【深蓝AI】编译

4D占用预测。通过为每个高斯预测一个3D流,并使用计划轨迹执行仿射变换,GaussianAD能够预测未来的场景并在其上执行感知。本文在4D占用预测任务上评估了GaussianAD的预测能力,并在未来1秒、2秒和3秒处测量了3D占用质量(mIoU和IoU)。表3显示,GaussianAD能够有效地预测未来的3D占用情况。需要注意的是,GaussianAD是一个执行多个任务的同时端到端模型,而OccWorld专门针对此任务。此外,本文的预测不考虑新观察区域的完成(由于自车向前移动),导致性能略逊一筹。即便如此,GaussianAD仍展示了非平凡的4D预测结果,验证了所提出的高斯流的有效性。

▲表3| 场景预测性能的结果©️【深蓝AI】编译

不同监督信号的效果。由于模型可以适应不同任务的不同训练信号,本文进行了消融研究以分析使用不同辅助监督的影响,如表4所示。本文研究了结合3D占用、3D检测、地图构建、运动预测和场景预测监督的规划性能。本文发现,GaussianAD在不同监督组合下保持一致的性能,且使用更多的监督信号通常会提高性能。运动监督对碰撞率指标特别有效,因为它提供了关于潜在未来轨迹重叠的指导。尽管如此,使用所提出的基于流的场景预测监督也实现了类似的改进,这仅需未来的感知标签,不需要额外的注释。

▲表4|使用不同辅助监督信号的效果©️【深蓝AI】编译

3D高斯剪枝。本文还分析了进一步剪枝高斯以减少冗余的效果,如表5所示。本文通过对高斯按照其语义置信度(即logits中的最大概率)排序,并剪除最小的那些来进行剪枝。本文观察到,高斯剪枝略微降低了感知任务的性能,但提高了规划性能,展示了框架的潜力。

▲表5|进一步高斯剪枝的效果©️【深蓝AI】编译

可视化。图4提供了GaussianAD输出的可视化,它能有效地感知周围环境并在各种情况下做出正确的决策。▲图4|本文的GaussianAD结果的可视化©️【深蓝AI】编译

结论

本文提出了一种以高斯为中心的框架,用于基于视觉的端到端自动驾驶。为了保留更全面的信息,采用3D高斯作为场景表示,并使用高斯流有效预测未来的演变。本文的框架提供了灵活性,可以适应具有各种注释的不同训练数据。本文在广泛使用的nuScenes数据集上进行了广泛的实验,并在包括端到端规划和4D占用预测在内的各项任务中展示了有竞争力的性能。基于3D高斯场景表示并使用更多样化数据训练的更大规模端到端模型是一个值得探索的方向。

局限性。GaussianAD无法准确预测场景演变,因为它不考虑新观察到的区域。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值