超越OmniRe!中科院DriveSplat:几何增强的神经高斯驾驶场景重建新SOTA

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

今天自动驾驶之心为大家分享中科院团队最新的自动驾3DGS工作—DriveSplat!超越所有SOTA,新视角重建效果大幅提升。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群加入,也欢迎添加小助理微信AIDriver005做进一步咨询

>>自动驾驶前沿信息获取自动驾驶之心知识星球

论文作者 | Cong Wang等

编辑 | 自动驾驶之心

自动驾驶场景的真实闭环仿真是近两年学术界和工业界的一大研究方向。比如场景中快速移动的车辆、运动的行人以及大规模的静态背景重建都是实际中需要考虑的因素。

而近两年的主流方法均使用动静态元素解耦的方式来解决运动模糊的问题,但是这种方式也存在一个明显的缺陷:解耦的策略忽视了与场景中充分的几何关系相结合的背景优化,并且过度依赖Gaussian点拟合训练视角。导致这些模型在渲染新视角时鲁棒性有限,并且缺乏精确的几何表示~

为了解决上述问题,中科院的团队提出了DriveSplat,这是一种基于神经高斯表示并具有动静态解耦的高质量驾驶场景重建算法。为了更好地适应驾驶视角主要呈现的线性运动模式,采用了一种区域划分的体素初始化方案,将场景划分为近、中、远三个区域,以增强近距离细节的表示。并且引入了可变形的神经高斯(deformable neural Gaussians)来建模非刚性动态参与者(actors),其参数通过一个可学习的形变网络进行时间上的调整。整个框架进一步由预训练模型提供的深度和法线先验进行监督,从而提升了几何结构的准确性。DriveSplat在Waymo和KITTI数据集上进行了评测,在驾驶场景的新视角合成任务中展现了最先进的性能。

  • 论文标题:DriveSplat: Decoupled Driving Scene Reconstruction with Geometry-enhanced Partitioned Neural Gaussians

  • 论文链接:https://arxiv.org/abs/2508.15376

简介

自动驾驶场景的三维仿真可以极大地促进自动驾驶功能的闭环测试。此外,它还允许灵活地构建复杂的交通环境,可用于训练感知和决策模型。与传统的倾斜摄影或人工构建的仿真环境相比,三维重建和新视角合成(NVS)技术能够从二维图像输入中重建三维场景,在便捷性和真实性方面都具有优势。

在相关领域,NeRF通过光线采样引入了隐式场景重建,为三维重建领域提供了一种新的技术范式。三维高斯点阵(3D-GS)则通过使用高斯椭球体对场景进行显式表示,进一步提高了重建效率,有效增强了渲染速度。这些方法在以物体为中心的场景和小型室内环境中取得了令人鼓舞的成果。后续的工作进一步提高了重建对视角变化的鲁棒性,并增强了对大规模场景的可扩展性。其中,神经高斯表示已成为一种有效的方法,在新视角合成质量和重建效率之间取得了平衡。然而,由于存在快速移动的车辆(难以准确捕捉,从而在场景中引入运动模糊),驾驶场景中的三维重建面临着更大的挑战。为了解决这些挑战,StreetGS和DrivingGaussian采用了动静解耦策略,有效地将动态前景参与者与静态背景的重建分离开来。后续研究开始优化非刚性动态参与者、精化动态实体的轨迹,并探索利用光流或语义进行动态解耦的方法。然而,这些方法仍然依赖于原始的3D-GS表示来进行背景重建,这在具有挑战性的新视角合成中缺乏鲁棒性,并且未能充分解决几何准确性问题。

针对上述关键差距,我们的工作旨在为动态自动驾驶场景提供一个视角鲁棒且几何精确的重建框架。与通过监督稳步提升渲染效果的训练视角不同,新视角增加了变异性,对一致的场景重建提出了挑战。3D-GS系列模型通过增量添加高斯椭球体来提升在训练视角下的渲染性能;然而,这可能导致冗余的高斯椭球体,当从其他视角观察时,会产生模糊和噪声。以往针对驾驶场景的重建方法依赖于激光雷达(LiDAR)进行深度监督,但LiDAR无法提供像素级的深度真值(ground truth),尤其是在高层建筑和远处物体上缺乏有效的监督。此外,这些方法未能充分解决重建模型中表面质量的优化问题,导致法线图结果不佳,如图1所示。

为了解决这些相互强化的挑战,我们提出了DriveSplat,这是一种基于神经高斯表示并具有动静解耦的视角鲁棒重建框架。以由SFM和LiDAR融合的点云为anchor,我们将动态点云从静态背景中分离出来,并用它们分别初始化前景参与者和背景表示。然后在这些空间锚点上构建一个基于八叉树的分区体素结构,其多级体素表示对应于不同的细节层次(LOD)。驾驶场景通常在近程和中程表现出更密集的点分布。为了更好地捕捉这些区域的细粒度细节,我们估计场景的主轴,并使用聚类算法将其分割为近、中、远三个区域。近区和中区的体素尺寸被细化,以更好地适应密集的点分布。对于场景中的动态参与者,我们使用边界框信息将每个重建的实例从局部坐标系转换到全局坐标系。对于行人和骑行者等非刚性动态参与者,我们额外设计了一个形变网络,通过随时间调整其属性(例如,位置、旋转、尺度)来建模神经高斯的时间演化。为了进一步提高几何质量,我们使用预训练单目模型预测的稠密深度图和表面法线图对重建过程进行监督,确保渲染中的几何一致性。总之,我们的主要贡献总结如下:

  • 将神经高斯表示引入驾驶场景重建,并提出了一种近-中-远分区的背景优化模块,该模块增强了近距离细节的表示,显著提升了新视角合成任务的性能。

  • 采用了一种动静解耦的场景表示策略,统一使用神经高斯来建模静态背景和动态参与者。此外,我们引入了可变形的神经高斯来重建非刚性参与者。

  • 研究了深度和法线先验在提升渲染质量和几何准确性方面的作用。我们的方法在Waymo和KITTI数据集上的NVS任务中均达到了最先进的性能。

相关算法回顾

大规模场景重建

原始的NeRF 由于近景模糊和远景边缘锯齿状的问题,在处理大规模场景时表现不佳。后续的改进包括使用多尺度IPE的Mip-NeRF 、应对光照变化的NeRF-W,以及分别训练局部块的Block-NeRF 。最近,基于3D-GS的方法 在重建速度和质量上都取得了显著突破。最初的高斯点阵 是为以物体为中心的场景量身定制的,而后续的研究已将其扩展到大规模场景。神经高斯结合了高斯点阵和神经场的优势,实现了具有鲁棒视角不变性的实时渲染。Hierarchical-GS为驾驶场景引入了分层结构,以优化实时重建效果,并结合分块策略来选择不同层级。在城市场景重建方面,一些方法提出将点云划分为单元,并引入细节层次来优化重建效率和细节表现。上述方法忽略了动态物体的优化,而我们的方法通过解耦动态和静态成分来提升重建效果。

动态场景重建

传统的重建方法主要关注静态场景,无法表示具有时间变化的动态场景或物体,从而导致运动模糊等问题。NeRF利用多层感知机(MLP)对静态环境进行隐式建模。这一概念已通过引入形变场 被扩展到可动画场景。或者,某些策略将可动画场景概念化为4D辐射场,但代价是由于光线-点采样和体渲染导致的巨大计算资源消耗。为缓解这些问题,已设计出加速技术用于描述动态环境。一些方法包括使用几何先验、投影MLP衍生的映射,或实现基于网格/平面的架构 来提升速度和效率。一些工作将3D高斯应用于动态场景。Luiten等人对多视角场景进行逐帧训练,而Yang等人使用形变场来表示物体的时间变化。4D-GS 提出使用多分辨率六平面来编码形变运动。我们借鉴了上述4D重建方法,采用形变场来为非刚性参与者建模神经高斯的时间演化。

三维重建中的几何优化

深度和法线监督通过提高几何准确性和表面朝向,增强了场景重建,能够高保真地捕捉复杂场景。一些方法提出整合深度先验来引导重建过程。后续工作 提出将深度监督嵌入NeRF框架,以提升训练效率并减少对多视角输入的依赖。MVS-Gaussian将多视角立体视觉(MVS)与高斯点阵结合,以改善稀疏视角设置下的重建。DN-Splatter 提出了一种创新方法,利用深度-法线融合来增强复杂环境中的点云精度,而2D-GS利用2D深度图来优化高斯点阵技术,以实现实时应用中的更高效重建。在驾驶场景中,GaussianPro引入了一种渐进传播策略,专注于优化几何属性。而Desire-GS提出了结合几何先验以增强监督,但面临训练速度极慢的问题。借鉴上述方法,我们利用深度和法线先验来引导神经高斯重建,在保持重建效率的同时提升几何质量。

算法详解

如图2所示,DriveSplat的输入包括RGB图像、一个初始化的3D点云,以及由数据集提供的动态参与者的边界框。在监督优化阶段,使用由预训练模型预测的深度和法线先验。

驾驶场景中的神经高斯初始化

点云初始化。 DriveSplat支持多种类型的点云初始化,包括SfM、LiDAR和稠密的DUSt3R输入。我们的模型利用跟踪的边界框分离动态参与者,估计其姿态参数( ),并用它们计算变换矩阵 。当有LiDAR数据时,将每一帧的点云 变换到参与者的局部坐标系中以进行一致建模。在局部坐标系中,构建一个轴对齐的边界框 ,以识别并筛选出其中包含的点 。该过程应用于所有被跟踪的参与者,生成动态参与者点云掩码

剩余的未被掩码的点被归类为静态点,定义为:

静态背景表示。 随后,我们使用八叉树结构初始化背景表示模型,并为驾驶场景引入一种优化方法。遵循Octree-GS ,我们根据预测的深度范围( )计算八叉树层数 。八叉树结构在多个细节层次(LOD)上构建,所有被占据的体素中心 通过在不同层级上对点云 进行量化得到。基础体素大小 通过将初始体素大小 除以2的幂次来计算,即 ,其中 。随着层级增加,基础体素大小逐渐减小,如图3所示。锚点 被选为体素中心,确保

对于具有显著深度变化的大规模点云,直接应用八叉体素化通常会导致体素过大,因为远处稀疏的背景点主导了全局体素大小。由于近处的点通常更密集,并且对图像空间投影的贡献更大,增强其重建至关重要。为此,我们引入了一种基于点云分区的距离感知分层方案,形成了背景分区优化(BPO)模块的基础。我们使用主成分分析(PCA)来估计主轴,并根据初始相机姿态确定其近端和远端。主轴的方向即为主方向。将所有初始点沿主轴投影。沿此轴应用高斯混合模型(GMM)以获得分割阈值 ,将投影点划分为近、中、远三个区域。

为了考虑不同区域点云稀疏性的变化,我们开发了一种基于主轴方向分区的自适应体素构建策略。然后,我们计算位置 处的体素大小 如下:

其中 表示基础体素大小, 分别表示投影点的平均和最小归一化逆密度。归一化逆密度通过沿主轴将点离散化为若干区间,并计算每个区间内点数的倒数得到。然后,这些值通过其最大值进行归一化。参数 是预定义的缩放因子,满足 ,用于控制不同区域的体素细化程度。

然后,神经高斯使用锚点位置 、缩放因子 以及相应的可学习偏移量  (Lu et al. 2024) 计算如下:

最后,我们在三个区域中建立了神经高斯表示,如图3所示。

动态参与者表示

对于包含多个移动前景动态参与者的场景,每个参与者由一组可调整的跟踪姿态和一个点云描述。在初始化时,参与者的高斯点以点云 作为锚点,并分配一个语义标签以将其与背景区分开来,并指明其是否为刚性。

动态参与者姿态变换。 参与者和背景的高斯点结构相似,其不透明度 和尺度矩阵 定义方式相同。参与者的位罝 和旋转 定义在参与者的局部坐标系中。为了与背景对齐,这些变量必须变换到世界坐标系中,这需要应用参与者跟踪的姿态。具体来说,这些跟踪姿态由一组旋转矩阵 和平移向量 表示,其中 表示总帧数。该变换表达为

其中 表示动态参与者高斯点 在世界坐标系中的位置和旋转。

非刚性参与者表示。 对于非刚性动态参与者,我们首先从所有相关的神经高斯点中提取锚点和偏移点。它们被组合成一个统一的表示:

其中 表示第 个高斯点的锚点, 是其在第 层对应的位罝偏移。借鉴先前的4D重建方法 (Wu et al. 2024; Yang et al. 2024b),我们利用一个形变网络来学习在特定时间 的形变后位罝、尺度和旋转,并获得形变后的动态高斯点

最后,我们通过连接静态高斯点 、动态高斯点 和形变高斯点 来得到组合的神经高斯点 。渲染图像 、深度图 和法线图 通过点阵化(Splatting)获得:

其中 表示当前帧的相机视图矩阵。

几何增强优化

几何先验估计。 我们利用深度和法线先验来引导几何优化过程。为了获得每个像素的可参考深度值,可以使用单目深度估计来预测绝对深度 或相对深度 。我们使用DepthAnything-V2 模型进行相对深度估计,并使用ZoeDepth模型进行绝对深度估计。为了获得可靠的表面法线先验,我们利用一个预训练的法线估计模型生成法线图 。这些估计的法线提供了关键的几何约束,有助于提升重建驾驶场景的表面质量。

损失函数。 为了实现高质量的渲染,我们定义了一个综合损失函数:

其中 分别表示渲染颜色损失、深度损失、法线损失和动态参与者掩码损失。 是超参数,用于控制优化过程中每个损失项的权重。

渲染颜色损失 结合了 损失 和结构相似性指数损失 ,定义为:

其中 平衡了 损失和SSIM损失的贡献,以实现高质量的渲染结果。

为了进一步提高几何准确性,我们引入深度损失 ,以强制我们估计的深度图 与预测的相对深度图 之间的一致性。该损失由权重 进行缩放,并使用相关性损失计算:

其中 分别表示协方差和方差。我们的方法也支持使用绝对深度 进行监督,此时使用 损失而非相关性损失。

为了确保预测的表面法线与真实的表面法线分布对齐,我们引入了法线损失 。该损失包括 损失 ,用于衡量我们估计的法线 与预测参考法线 之间的误差,以及余弦相似性损失 ,用于法线方向对齐。总法线损失为:

此外,掩码损失 采用交叉熵来比较预测和真实掩码,有助于提升动态参与者的渲染质量。

实验结果分析

数据集

Waymo 提供了来自城市和郊区多种场景的多样化传感器数据。我们选择了8个在不同条件下录制的序列,包括不同的天气(例如,有雾和晴天)和交通场景(例如,城市慢速道路和高速公路)。此外,为了验证非刚性参与者重建性能,我们还选择了OmniRe中使用的两个序列进行消融研究。

KITTI 包含了许多光照变化显著的场景,从高曝光区域到阴影区域,这对重建构成了巨大挑战。因此,在KITTI数据集的序列上评估重建性能,可以对模型在不同环境条件下的鲁棒性进行一次严格的测试。我们选择了3个包含动态非刚性参与者和具有挑战性背景的序列来进行对比实验。

实现细节

我们通过从原始序列中每四帧采样一帧,并将其排除在模型训练之外,来评估方法在训练视角重建和新视角合成方面的性能。在单个NVIDIA L20 GPU上,训练一个场景30K次迭代需要68分钟,远比Desire-GS的180分钟以上更高效(见附录表2)。

基准评估

Waymo上的结果。 我们在Waymo数据集上(表1)将我们的方法与现有方法进行了评估,这些方法包括静态方法和动态方法,并使用了重建和新视角合成两种指标。我们的方法在PSNR和LPIPS重建指标上均超越了所有基线,展示了高精度。尽管StreetGS和 OmniRe在重建指标上表现良好,但它们在新视角合成方面表现不佳,凸显了它们在处理视角转换时的局限性。相比之下,DriveSplat在新视角合成任务中表现出色,在所有三个评估指标上均优于所有基线。视觉分析(图4)突显了DriveSplat在车辆渲染中无伪影的优势、对具有挑战性的静态背景细节的增强清晰度,以及对动态车辆的精确描绘。我们进一步展示了在更具挑战性的设置下的新视角合成对比结果,其中自车(ego-car)轨迹向左平移1.0米,向上平移1.0米,如图6所示。

KITTI上的结果。 DriveSplat的性能也在KITTI数据集上进行了评估。如表2所示,DriveSplat在重建和新视角合成任务中均优于基线方法。图5展示了渲染结果,其中DriveSplat表现出更优的背景清晰度和对动态车辆的精确渲染。与OmniRe相比,我们的方法在新视角合成方面表现出更好的性能,尤其是在保留背景细节方面,如图5第二行所示。

消融实验

初始化模块的消融研究。 我们评估了不同初始化方法的影响,如表3所示。LiDAR提供了最精确的点云,但对高层建筑和远处区域的覆盖不足。尽管SfM提供的点更稀疏,但它提供了更广泛的场景覆盖,因此略优于单独使用LiDAR。DUSt3R产生了最密集的点云,但由于与真实世界坐标在尺度和位置上的错位,即使经过变换,其性能也未达到最优。因此,我们选择了SfM+LiDAR组合进行初始化,这产生了最佳的渲染结果。

尽管已经验证了点云初始化,我们还对分区背景优化模块进行了消融研究。我们将我们的方法在有和没有背景优化模块的情况下的性能进行了比较,如表4所示。结果表明,BPO模块可以提升方法的性能,这对于Octree-GS也同样适用。

几何优化的消融研究。 我们以GaussianPro 作为基线进行了深度和法线渲染实验,因为它在驾驶场景中具有较高的几何精度。对于深度评估,我们将我们的方法在使用深度先验(包括度量深度 和相对深度 )和不使用深度先验的情况进行比较,如表5所示。我们使用3个标准指标:绝对相对误差(Abs Rel)、平均绝对误差(MAE)和阈值下的精度(δ< 1.25),以及PSNR来评估渲染图像的质量。我们的方法在所有指标上均超越了基线。尽管度量深度 能产生最精确的深度,但它降低了渲染质量。相反,相对深度 提升了渲染质量,但降低了深度精度。这种权衡是由于绝对深度数据的精度有限,这使我们倾向于使用相对深度以获得更好的整体质量。对于法线评估,我们评估了我们的方法在有和没有法线先验的情况,如表5所示,使用估计的法线 作为参考真值(GT)。我们选择了3个法线评估指标:MAE、均方根误差(RMSE)和余弦相似度(cos sim)。结果表明,我们的方法在所有指标上都优于基线,并证明了法线先验的有效性。

动态优化模块的消融研究。 我们还额外选择了两个Waymo序列,这些序列在前视图中包含大量行人,以评估我们的非刚性参与者重建性能。将场景中的动态和静态元素解耦能有效提升移动参与者渲染的质量。添加个体动态物体表示可以改善移动车辆的渲染质量,但对于非刚性参与者,仍然存在运动模糊问题。在添加可变形模块后,非刚性参与者的渲染质量得到了显著提升。与额外结合了SMPL的OmniRe相比,我们的方法达到了相当的重建性能(表6)。

结论

本文提出了DriveSplat,这是一种用于驾驶场景三维重建的新方法,它提升了静态和动态元素的准确性。通过将分区背景优化模块与深度和法线先验相结合,我们的方法能够为大规模背景捕捉详细的场景几何。通过跟踪移动车辆的姿态,并对非刚性参与者应用可变形高斯,动态元素实现了更精确的重建。DriveSplat在两个自动驾驶数据集上的新视角合成任务中达到了最先进的性能,实现了高质量的几何表示和大规模场景重建。

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值