万能3D高斯预训练表示!GaussianPretrain:爆拉3D检测、Occ、高精地图等四大任务!...

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享澳门大学&北理工最新的工作—GaussianPretrain!自动驾驶的万能3D高斯表示。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心3DGS技术交流群

论文作者 | Shaoqing Xu等

编辑 | 自动驾驶之心

写在前面 && 笔者理解

受Tesla的技术的推动,越来越多的厂商开始走"纯视觉"的路线,多数方案还是集中在从多视图输入图像中提取鸟瞰图(BEV)特征,来解决下游目标检测、在线地图等各种应用。尽管有监督的方法还是占主导地位,但是它们非常依赖精确的GT标注,成本高、难度大往往成为一个比较显著的瓶颈。相反,大量且易于获取的未标记数据为提高性能提供了一个充满希望的途径。这就是所谓的自监督预训练技术,其核心思想是,通过利用精心设计的代理任务,从丰富的未标记数据中学习有意义的表示。然而当前的一些方案要么无法捕捉到有效的几何信息,要么无不能学习到详细的纹理信息。

3D Gaussian Splatting(3D-GS)以点云的形式表示,为场景重建提供了强大的表示,通过位置、颜色、旋转、缩放和不透明度等属性编码几何和纹理信息。正是受到3D-GS在有效场景表示和Masked autoencoders(MAE)在2D图像自监督学习中的成功的启发,作者提出了一种新颖的预训练方法GaussianPretrain,它结合了3D-GS和MAE方法,用于3D视觉学习中的预训练任务。

作者的方法包括两个关键创新:

  • LiDAR深度指导掩码生成器。为了提高效率,作者只关注从多视图图像中的有限数量的有效掩码补丁中学习高斯信息。这些补丁由MAE策略识别,并进一步过滤,只包括那些具有LiDAR深度监督的补丁。

  • 基于射线的3D高斯锚点指导策略:对于每个LiDAR投影像素,执行射线投射操作到3D空间以采样体素内的点。作者引入了一组可学习的高斯锚点来指导从3D体素中作为体积LiDAR点的高斯属性的学习,并预测相关属性(例如,深度、不透明度)。这使得模型能够通过3D Gaussian Splatting同时理解场景的几何和纹理信息。

  • 论文链接:https://arxiv.org/pdf/2411.12452

相关工作

自动驾驶中的预训练

使用对比学习和掩码信号建模来捕获语义和纹理信息,在2D图像上的预训练已经取得了巨大的成功。但是,自动驾驶的视觉预训练需要准确的几何表示。目前有的研究,比如,UniScene和OccNet利用占用预测进行预训练,而ViDAR 从历史帧图像预测未来的LiDAR数据。尽管这些方法在捕获几何信息方面是有效的,但却无法学习详细的纹理信息。相反,像Self-OCC 、UniPAD 和MIM4D 这样的方法使用NeRF 来渲染RGB图像和深度图,学习了纹理但几何信息有限。OccFeat 在占用预测期间使用知识蒸馏从图像基础模型转移纹理信息,但会产生高昂的预训练成本。相比之下,作者的工作引入了3D Gaussian Splatting进行自动驾驶的视觉预训练,有效地捕获纹理和几何信息,来解决这些限制。

从NeRF到3D-GS

Neural Radiance Fields (NeRF) 通过隐式表示场景的颜色和密度,参数化多层感知机(MLP)结合体积渲染技术,实现了令人印象深刻的渲染质量。后续工作已成功将NeRF扩展到各种任务,但是这些工作都需要针对每个场景来优化,由于优化和渲染速度慢,限制了它们的效率。相比之下,3D Gaussian Splatting 通过各向异性高斯显式表示场景,通过可微光栅化实现实时渲染。然而,由于依赖于特定场景的优化,它倾向于过度拟合特定场景。最近的方法通过预测高斯参数的前馈方式来缓解这个问题,这样就不需要针对每个场景来优化了。例如,GPSGaussian 从图像对执行极线校正和视差估计,依赖立体图像和真实的深度图。同样,Spatter Image 专注于从单一视图重建单个对象的3D结构。这两种方法因为效率低,仅限于对象重建,并且依赖于特定的输入格式,如图像对或单一视图。在本文中,作者将3D Gaussian Splatting扩展到视觉预训练任务中,通过在3D空间中预设固定位置的3D高斯锚点,克服了与视图数量和深度图需求相关的问题,标志着3D-GS的新应用。

3D Gaussian Splatting

3D GS由于其高效的光栅化设计和显式表示,在场景表示、编辑和新视角合成方面展现出强大的能力。通常,场景由一组高斯组成,这些高斯通常从重建方法或LiDAR数据中得到的点云初始化而来。每个高斯被赋予可学习的属性,包括方向、颜色、位置、尺度和不透明度。在渲染过程中,这些3D高斯被使用可微光栅化投影到2D图像平面上。对于场景表示任务,通过将渲染输出与真实图像进行监督,迭代优化高斯属性。对于3D空间中的一个高斯点,它被定义为

其中和分别指的是高斯的均值中心和3D协方差矩阵。投影到2D后,有2D协方差矩阵,其中视图变换由表示,雅可比矩阵对应于变换的线性近似。最后,像素颜色是从N个有序高斯中渲染出来的,混合方程为

其中是用球谐表示的高斯颜色,是这个高斯对当前像素的不透明度影响。是透明度。

方法论

图3展示了作者GaussianPretrain的结构,一个使用3D-GS表示进行视觉预训练的简单、创新且高效的框架。给定带有有效掩码补丁的多视图图像,作者的目标是通过解码每个场景的高斯参数 来重建RGB、深度和占用,其中、、和分别是3D高斯的位置、不透明度、协方差和颜色信息,K表示最大高斯锚点的数量。

8b9a08f4277b657ef317284f58135914.jpeg

LiDAR 深度引导掩模生成器

受MAE 的启发,作者对多视图图像应用随机补丁掩码,表示为M。此外,稀疏卷积被用来替代图像主干中的传统卷积,如SparK 的实现增强了性能和泛化能力。为了计算效率,作者只关注从有限的一组有效掩码补丁中学习高斯参数。此外,作者通过检查LiDAR点是否在某个深度范围内来双重检查掩码区域。

b9f5bf6a4736f667d9fe210617ddabe3.jpeg

如图4所示,如果一组点投影到图像中的掩码补丁,并且它们的深度落在[a, b]的范围内,掩码区域将被标记为有效,。这种策略确保作者的模型集中于前景,避免了对天空等不相关背景元素的不必要关注。

基于射线引导的 3D 高斯锚点

为了使模型能够同时理解场景的几何和纹理信息,作者引入了一系列在3D空间中的可学习高斯锚点。这些锚点引导从3D体素网格中派生的高斯属性的学习,被视为体积LiDAR点。考虑由表示的LiDAR投影像素,它对应于从相机延伸到3D空间的射线R。沿着这个射线,作者采样D个射线点,其中是沿射线的相应深度。每个在有效掩码区域M′中的采样射线点p可以立即反投影到3D空间,使用投影矩阵摘要作为3D高斯锚点,。这种策略不仅消除了完整图像渲染的需要,显著减少了内存使用,而且还实现了RGB、深度和占用的同时重建。

体素编码

在大多数感知任务中,通常使用视图变换器生成鸟瞰图(BEV)特征,然后用于后续的下游任务。值得注意的是,作者的预训练方法与任何类型的视图变换器兼容。在作者的基线模型UVTR 中,采用lift-splat-shoot (LSS)方法,并将通道维度扩展以包含高度维度,产生3D体素特征,其中C、H、W和Z分别代表通道数以及沿x、y和z轴的维度。此外,对于每个LiDAR投影像素,作者执行射线投射操作,从3D体素网格V中提取Nt个采样目标体素,其中存在高斯锚点。

Gaussian 参数解码

如图3所示,通过将概念化为3D高斯锚点,这种统一表示使作者能够高效地捕获高质量、细粒度的细节,提供对场景更全面的了解。特别地,每个3D高斯锚点由属性特征化,所提出的高斯映射G定义为:

其中x是3D空间中高斯锚点的位置,、、、分别代表颜色、旋转、缩放和不透明度的高斯参数图。由于多视图图像中的重叠区域,像素级的高斯参数预测可能会导致由于重叠splats引起的歧义。相比之下,作者认为直接从3D体素特征预测高斯参数是更好的选择。给定体素特征V和中心坐标x,作者使用三线性插值来采样相应的特征f(x)如下:

高斯参数图由预测头生成,定义为h = MLP(·),由多个MLP层组成。每个预测头专门设计用于根据采样的特征f(x)回归特定参数。对于颜色和不透明度参数,作者使用sigmoid函数进行范围[0,1]的回归,如下所示:

其中、分别表示颜色和不透明度的头。在用于形成高斯表示之前,旋转图应该被归一化,因为它表示一个四元数,以确保单位大小,而缩放图需要激活以满足其范围,如下所示:

其中、分别表示旋转头和缩放头。

通过重构信号来监督

为了在MAE策略下更好地重建掩码区域,作者使用从高斯表示派生的不同重建信号来监督学习过程。具体来说,RGB、深度和占用信号是基于有效掩码补丁中预测的高斯锚点参数解码的。

RGB Reconstruction. 由于作者不需要重建任意视角的图像,作者直接预测固定视点的RGB,而不是使用球谐系数。在预测高斯锚点参数后,作者使用GS中的相关方程来解码颜色信息,以渲染每个目标重建像素的图像RGB值图,表示为。具体来说,方程中的值被预测的RGB替换。

Depth Reconstruction. 受NeRF风格体积渲染中的深度实现启发,作者以类似于RGB重建的方式整合每个splat的深度。作者从3DGS参数近似每个像素的z深度。该过程如下:

其中n是高斯锚点的数量,是第i个高斯锚点在视图空间中的z深度坐标,实现了高效的深度渲染,计算开销最小。是图像的深度图。

Occupancy Reconstruction. 3DGS点的不透明度属性自然适用于视觉感知,特别是占用预测任务。与GaussianFormer不同,后者使用不透明度进行语义逻辑,作者直接将不透明度解释为占用位置的指示。完全不透明的高斯锚点表示在x处存在被占用的位置。形式上,对于每个目标体素,作者在体素内的高斯锚点中取最大不透明度值来表示占用概率,表示为。这种直接将不透明度映射到占用的方法,为利用3D Gaussian Splatting进行占用预测提供了自然而有效的方式。

其中k是目标体素中的高斯锚点数量。

Loss Function. 总结来说,整体预训练损失函数由颜色损失、深度损失和占用损失组成:

其中 , 是每个射线的GT颜色和深度。 表示占用的GT,如果它包含至少一个LiDAR点,则被认为是占用的。 和 分别是目标像素和目标体素的计数。

实验结果

作者使用nuScenes数据集来训练和验证。

不同任务上的结果

3D Object Detection. 作者在表1中比较了GaussianPretrain与以前SOTA方法的结果。以UniPAD作为基线,该基线是在UVTR-C/StreamPETR上实现的。作者的方法在NDS和mAP上分别超过了UniPAD-C 0.8和0.7个百分点。与StreamPETR相比,改进进一步获得了0.9 NDS,达到了48.8和38.6在NDS和mAP上,达到了没有任何测试时增强的现有最先进方法的水平。

fdf0a8ff6ff99b5d30994dcf6f33dc1e.jpeg

HD Map Construction. 正如表2所示,作者评估了其训练模型在nuScenes数据集上对HD地图构建任务的性能。这项任务要求模型理解道路拓扑和交通规则,需要对场景的纹理信息有详细的了解。作者使用MapTR 来评估GaussianPretrain捕获这些信息的能力。得益于作者有效的高斯表示预训练,MapTR在mAP上实现了1.9%的改进。

505c9dd6dbcdf15306e00c0479c1f4df.jpeg

3D Occupancy Prediction. 高斯锚点的不透明度属性自然适合占用预测任务。在表3中,作者在Occ3D-nuScenes上进行了3D占用预测的实验。表中报告了SOTA方法的性能,这些性能记录在Occ3d 的工作中。作者在BEVFormer 和PanoOCC上实现了作者的框架,比BEVFormer提高了0.6% mIoU的性能,比SOTA方法PanoOCC进一步提高了0.8% mIoU。这也突出了作者预训练图的有效性。

0898c6bffd399b0e226df6d0701c3b68.jpeg

预训练方法上的结果

作者以在ImageNet上预训练的UVTR-C作为基线,并在表4中比较了GaussianPretrain与以前的预训练方法。

  1. DD3D:利用深度估计进行预训练。

  2. SparK:将MAE纳入预训练方法。

  3. FCOS3D:在预训练阶段使用3D标签进行监督。

  4. UniPAD:基于NeRF的渲染预训练范式。

作者的GaussianPretrain,将3D-GS整合到视觉预训练中,大大提高了7.1%的NDS和9.0%的mAP。它优于所有其他方法,分别达到了32.0 NDS和32.3 mAP。

2092224b30225953b4415a3fa1d068a7.jpeg

消融实验

GaussianPretrain’s losses: 为了验证每个重建信号的有效性,作者在UVTR和BEVFomer上进行了3D检测和占用任务的实验。RGB损失引导模型从重建图像中学习场景的纹理信息,而深度损失鼓励模型在2D平面上学习几何信息,尽管这本身不足以捕获完整的3D几何信息。相比之下,占用损失监督模型在3D空间内学习全面的几何信息。如表7所示,每个组成部分都做出了积极贡献,当全部使用时,取得了最佳结果。

fb6577439961a1086448dbe7d4221ea4.jpeg

Gaussian Anchor Numbers: 作者进行了消融研究,以检查不同数量的高斯锚点对性能指标的影响,如表8所示。在达到1024个射线时,观察到最显著的增益,超过这个数量,相对于额外的资源需求,改进较小。

Efficiency & consumption: 基于NeRF的方法通常受到慢收敛和高GPU内存消耗的困扰。相比之下,作者的基于3D-GS的方法提供了可比的渲染质量,并且具有更快的收敛速度和更优越的效率,用于自由视图渲染。在表9中,作者比较了NeRF基础的UniPAD和作者的解码器模块之间的效率和内存消耗。值得注意的是,GaussianPretrain明显减少了约30%的内存使用,并减少了大约40.6%的延迟,同时保持了相似的参数大小。

Supervised Pre-training: 作者展示了GaussianPretrain在减少对注释的依赖方面的有效性,通过微调UVTR,从完整数据集到1/4子集的范围。如图5所示,作者的方法在只有一半监督样本的情况下超过了基线5.5% mAP,即32.0% mAP vs. 26.5% mAP。这表明GaussianPretrain可以有效利用未标记数据来补偿减少的监督,即使在注释较少的情况下也能提高性能。

6bc99401345122221bfbf5be4567eb8f.jpeg

Different Conditions: 作者在表6中报告了在不同距离、天气条件和光照情况下的性能,这得益于作者在UVTR-C上有效的预训练,GaussianPretrain实现了卓越的鲁棒性和整体最佳性能。

9326d9996a3a6de72ab7ea52266223f2.jpeg

总结

在这项工作中,作者首次将3D Gaussian Splatting技术引入视觉预训练任务。作者的GaussianPretrain在各种3D感知任务中展现出显著的有效性和鲁棒性,包括3D目标检测、高清地图重建和占用预测,同时具有效率和较低的内存消耗。不过,当前框架仍然存在某些局限性。特别是,它没有明确地结合时间或多模态信息,这两者对于许多自动驾驶应用至关重要。在未来的工作中,作者计划扩展GaussianPretrain以利用这些信息,并进一步提高其性能。

参考

[1] GaussianPretrain: A Simple Unified 3D Gaussian Representation for Visual Pre-training in Autonomous Driving

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。

c128b27ebca8022ecf04d699b79b3e55.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

28e3c61d7345db5ae0241e901ad50ce8.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

6446b886d81058db26c03e9a2fdf90b0.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

836b55947bafc09e5035d052040ab781.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值