即插即用!PM-Loss显著改善前馈3DGS质量~

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

全新训练损失

新视角合成(Novel View Synthesis, NVS)是计算机视觉和图形学中长期研究的课题,近年来随着神经渲染技术的进步,尤其是3D高斯泼溅(3D Gaussian Splatting, 3DGS)的发展,这一领域受到越来越多的关注。虽然NVS模型的输入和输出都是2D图像,但其核心目标是恢复场景的3D结构。因此,平滑且精确的几何表示对于生成高质量的新视角至关重要,这也促使了一系列研究致力于通过学习更准确、更一致的几何表示来提升视觉质量。

尽管3DGS模型具有超快的渲染速度,但为未见过的场景重建它们需要耗时的逐场景优化过程,这限制了其在实际应用中的可用性。这一挑战推动了前馈式3DGS方法的发展,这也是我们工作的主要关注点。与通过优化几何来提升视觉质量的逐场景调优方法不同,前馈式3DGS模型通常在几何质量上有所不足,尽管在提升外观表现方面取得了显著进展。核心问题在于前馈方法所使用的表示方式——它们依赖于深度图。大多数前馈模型预测深度图,然后将其反投影以形成3D高斯分布。由于深度图在物体边界附近往往存在不连续性,直接反投影会将这些伪影传递到3D表示中,导致几何质量下降。

近年来,3D重建领域出现了一种新的研究方向,采用称为“点图”(pointmap)的表示方法。与深度图在相机空间中表示标量值不同,点图在世界空间中编码一组3D点,能够更平滑、更准确地建模几何。此外,点图通过神经网络直接回归的方式简化了传统的多视角立体(Multi-View Stereo, MVS)流程。这些优势使得点图方法在3D重建任务中取得了显著成功。

点图在基于回归的3D重建中的成功启发我们将其作为强先验,以减少基于深度图的前馈式3DGS中的伪影。然而,这一思路并非直接可行,因为点图隐式编码了粗略的相机位姿,而前馈式3DGS在显式提供精确位姿时表现最佳,这使得有效利用几何先验变得具有挑战性。现有的在无位姿设定下采用点图先验的方法要么依赖于特定数据集(如ScanNet),要么需要耗时的测试时位姿对齐,这都限制了实际应用。虽然可以通过嵌入相机位姿来调整点图模型,但这种方法需要昂贵的重新训练,且无法提升场景细节的质量。

本文介绍一种新方法,通过将点图先验转化为简单而有效的训练损失,将其几何知识迁移到前馈式3DGS中。与先前方法不同,我们的PM-Loss[1]是即插即用的,完全避免了位姿问题。具体而言,PM-Loss利用大规模3D重建模型(如Fast3R、VGGT)预测的全局点图作为伪真值,指导从预测深度反投影的点云学习。这种监督要求源点和目标点处于同一空间,并且能够高效计算。对于前者,我们发现Umeyama算法可以利用深度图与点图之间的一一对应关系高效对齐两个点云;对于后者,我们使用Chamfer损失直接在3D空间中进行正则化,相比2D空间的正则化能显著提升几何质量。通过从预训练的3D重建模型中提取点图所嵌入的几何先验,我们的方法能够缓解由反投影深度引起的不连续性,并显著提升前馈式3DGS模型的3D点云质量和渲染新视角的效果。

为了验证PM-Loss的有效性,我们在两个代表性前馈式3DGS模型(MVSplat和DepthSplat)和两个大规模数据集(RealEstate10K和DL3DV-10K)上进行了实验。结果表明,PM-Loss在所有评估指标上均提升了3D高斯分布和渲染新视角的质量。广泛的消融实验和分析进一步验证了我们的架构设计选择,以及PM-Loss在内存和运行效率上的优势。由于其即插即用、高效且有效的特性,我们相信PM-Loss将在未来前馈式3DGS的训练中发挥重要作用。

项目链接:https://aim-uofa.github.io/PMLoss/

主要贡献包括以下三点:

  • 我们揭示了一个未被充分探讨但关键的问题,即深度不连续性导致前馈式3DGS模型预测的3D高斯分布质量较低。

  • 我们提出了一种新的训练损失PM-Loss,通过利用预训练3D重建模型生成的点图几何先验来提升3D高斯分布的质量。

  • 在现有前馈式3DGS模型和两个大规模数据集上的广泛实验证明了PM-Loss在提升3D高斯分布和渲染新视角质量方面的有效性。

具体方法

我们的目标是训练一个神经网络,使其能够直接从一张或多张输入图像预测出3D高斯泼溅(3DGS)模型,用于新视角合成,从而避免逐场景优化的需求。为了提升预测的3D高斯分布的质量,我们提出了一种新颖的点图损失(PointMap Loss, PM-Loss),用于对预测的3D结构进行正则化。PM-Loss利用点图——一种通过预训练的视觉Transformer从输入图像回归得到的结构化2D到3D表示——为几何学习提供图像对齐的监督。我们首先介绍必要的背景知识,然后详细描述PM-Loss的设计。

背景

前馈式3D高斯泼溅

该方法旨在通过单次前向传播,从一张或多张输入图像直接重建一组3D高斯分布。其通用架构采用编码器-解码器结构:首先,编码器网络处理输入图像以提取高级特征;这些特征随后通常与相机位姿信息以及其他辅助信息通过融合模块结合;接着,高斯头部网络预测N个3D高斯分布的参数,包括均值(中心点)、协方差(通常用尺度和旋转表示)、不透明度以及颜色(或球谐系数)。

在典型的前馈式3DGS流程中,高斯均值通过反投影预测的深度图得到。具体来说,对于输入图像中的每个像素,预测一个深度值,并结合相机内参矩阵和相机到世界的变换矩阵,计算对应高斯中心的3D位置。尽管这种方法高效,但由于深度图在物体边界处存在固有的不连续性,反投影后会导致高斯分布破碎或错位,从而降低3D场景表示的几何质量,并进一步影响新视角合成的效果。

点图回归

点图是一种结构化的3D表示,其中输入2D图像的每个像素关联一个世界坐标系中的3D点。与仅提供每像素Z值的深度图不同,点图直接表示完整的3D坐标(XYZ)。点图通常通过预训练的深度神经网络(如基于视觉Transformer的架构)从图像中以回归方式生成。

给定一个点图回归模型,对于每张输入图像及其相机位姿,该模型输出一组3D点。这些逐图像的点图被聚合形成全局参考点云,从而提供密集的3D几何先验,供我们的PM-Loss利用。

PM-Loss

为了应对前馈式3DGS中的几何不准确性问题,现有方法(如DepthSplat)通常引入单目深度先验。然而,这些先验通常在2D图像空间中进行监督,可能无法有效转化为一致的3D几何。相反,我们主张直接在3D空间中对几何学习进行正则化。

给定一批输入图像,前馈式3DGS模型直接预测一组3D高斯中心。我们将这些预测的中心点集合记为X_3DGS,其中每个点代表世界坐标系中一个3D高斯的中心。为了指导模型学习准确且一致的几何,我们引入了一种基于预训练点图回归模型的3D监督信号。该模型为每个像素预测一个3D点,形成参考点云X_PM。

高效点云对齐

尽管X_3DGS和X_PM都表示世界坐标系中的场景3D结构,但直接使用X_PM监督X_3DGS并非易事。实际上,这两个点云可能由于尺度、旋转或平移的差异而错位——这些差异源于位姿不准确或生成X_PM的预训练模型所使用的隐式坐标系。如果不解决这些差异,逐点监督可能会引入误导性梯度。因此,精确对齐对于有效从X_PM中提取几何先验并注入X_3DGS至关重要。

传统的对齐方法(如迭代最近点算法,ICP)计算成本高昂,尤其对于密集点云,难以集成到训练循环中。然而,在我们的设定中,高斯中心X_3DGS(来自逐像素深度预测)和点图输出X_PM与输入图像像素存在一一对应的关系。这种自然对应性允许我们使用Umeyama算法——一种闭式且高效的解决方案——来估计两个点集之间的最优相似变换(尺度、旋转和平移)。

给定N个对应点,Umeyama算法通过最小化目标函数来估计最优尺度因子、旋转矩阵和平移向量。估计出的变换随后应用于原始点图X_PM中的每个点,得到对齐后的点图X_PM',从而在一致的坐标系中计算提出的监督损失。

单向Chamfer损失

给定对齐后的点云X_3DGS和X_PM',我们将PM-Loss定义为从X_3DGS到X_PM'的单向Chamfer距离。这种形式确保对于X_3DGS中的每个点,我们都能高效地找到其在X_PM'中的最近邻,从而提供可靠的几何监督。

PM-Loss的设计核心在于在3D空间中重新计算最近邻以进行监督,而非直接依赖自然的一对一像素对应关系(后者会退化为深度损失)。这一设计使得监督对位姿错位和预测噪声更具鲁棒性。我们通过消融实验验证了这一点,并在表格中报告了定量结果。

实验效果

总结一下

我们提出了 PM-Loss,一种简单而有效的训练损失,它利用点图的几何先验来改进前馈式 3DGS。通过使用全局点图作为伪真值在 3D 空间中进行正则化,PM-Loss 缓解了物体边界附近由深度引起的不连续性,从而显著提高了几何和渲染质量。我们的 PM-Loss 可以无缝集成到现有的训练流程中,并且不会引入推理开销。在多个主干网络和大规模数据集上的广泛实验和分析证明了其广泛的适用性和高效性。我们相信 PM-Loss 为训练更鲁棒、更准确的前馈式 3DGS 模型提供了一种实用的解决方案。

局限性:PM-Loss 的有效性受限于预训练点图模型的质量,因为点图中的错误可能通过我们的损失传播到前馈式 3DGS 模型中。利用未来 3D 重建进展中更强大的点图模型是一个有前景的方向。

参考

[1] Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值