这篇文章因为几个地方表述不清所以需要揣测作者的想法,阅读难度较大,有任何不同看法欢迎交流改正!还有,我真的很想吐槽优快云这个编辑器,为什么前面写的时候定好的字体、颜色、图片大小,后面编辑一次就给我全部恢复默认了呢???原本整整齐齐的排版现在一坨屎一样,服气
Abstract
最近基于3DGS的新视角合成工作可以获得真实的渲染结果,但是对于稀疏视角而言,因为SFM过程中稀疏视角很难初始化,以及数据少导致训练过程中产生大量过拟合的floater,这是其主要限制所在。另一方面,在深度估计和配准领域,很多进展工作可以提供一个稀疏视角的稠密点云,但是他的pose估计不是最优的。
我们提出了SPARS3R,这项工作结合了SFM能估计准确pose以及深度估计能建立稠密点云的优点,首先,进行全局融合对齐的过程,在这个过程中,将一个稠密点云作为先验信息对齐到基于SFM三角对应的稀疏点云(在这个过程中使用RANSAC来区分内异值和异常值)。然后进行语义上的离群点对齐,即提取离群点周围的语义连贯区域,并且在该区域内进行局部对齐。
在评估过程中,我们证明了SPARS3R能够在稀疏图像上实现照片级真实感绘制,并且显著优于现有的方法。
1. Introduction
不管是Neural Radiance Field(NeRF) 还是 3D Gaussian Splatting (3DGS),在Novel View Synthe-sis (NVS)任务中基本都能很好的处理,然而这仅限于对场景的密集捕获,对于稀疏视角来说,将光度目标过度拟合到不正确的几何形状是 NVS 中的常见问题,最近的稀疏视角的3DGS优化工作包括深度正则化、高斯floater修剪、基于邻近的高斯致密化策略,这些工作尽管提高了几何但是在背景中产生了过于平滑的渲染结果,此问题可归因于稀疏的初始点云,特别是在背景区域。 此外,额外的限制,例如 基于单目深度先验的方法通常是不完美的,导致噪声梯度阻碍稀疏区域的适当致密化。
一个潜在解决方案是使用更密集的点云来初始化高斯的训练,以帮助消除形状和辐射的歧义。因此,双视图深度估计的最新进展,特别是 DUSt3R [51] 和 MASt3R [29],已经展示出利用预训练模型进行稠密点云构建的强大能力。从理论上来说,这样的点云是可以进行GS初始化的,比如InstantSplat已经在这样做了;但是从多视深度对齐过程中获得相机的内外参进行相机标定是不够准确的(DUSt3R 这两个工作就是带有深度的预训练推理), 如果不加以纠正,高斯优化过程将生成floater,为了防止这种情况,一些策略建议避免过度密集化(densification)点云 [14],作为一种临时措施。
相比之下,基于运动恢复结构(Structure-from-Motion, SfM)的相机标定方法更加高效和准确。SfM 技术通过分析多视角图像中的特征点匹配,可以快速且准确地恢复相机的运动参数。一个常用的 SfM 工具是 COLMAP [45],它利用特征匹配模型来找到图像中的可靠对应点,然后通过 RANSAC [15](随机抽样一致性算法)来排除异常值。RANSAC 是一种稳健的估计方法,通过多次随机抽样来寻找最优解,确保标定结果的准确性。
在稀疏视角(sparse-view)设置下,SfM 方法可以重复多次,进一步提高标定的准确性。这是因为 SfM 不依赖于密集的深度图,而是通过可靠的特征点对应关系来进行标定。多次重复标定过程,可以累积更多的可靠对应点,从而提高最终标定结果的精度。
我们针对GS稀疏重建中初始化和pose不准确的问题,提出了SPARS3R,这是一个两阶段的方法,主要是全局融合配准,以及离群的语义配准:
在全局融合对齐中,SPARS3R首先通过DUSt3R [51]或MASt3R [29]从稀疏视图中获得密集点云,并从COLMAP [45]中获得稀疏点云。 通过获取图像内的三角对应关系(triangulated correspondences),SPARS3R 通过 RANSAC 的全局 Procrustes 对齐过程(全局 Procrustes 对齐是一种优化方法,用于将一个点云(密集点云)与另一个点云(稀疏点云)对齐,使它们之间的整体变换(包括平移、旋转和缩放)最小化。)将密集点云融合到稀疏点云上 [15]。 由于某些点会因局部尺度变化而产生较大误差,因此引入了第二个语义对齐过程。
具体来说,使用交互分割模型(如 SAM [26])识别全局融合对齐中的异常点,并生成语义掩码(semantic masks)。这些语义掩码指示了密集点云中需要进行局部对齐的区域,然后对这些区域进行局部对齐,使其更好地与 SfM 点云对齐。经过这两个阶段的处理,SPARS3R 能够生成一个既密集又姿态准确的点云,作为高斯点元优化的强大先验。具体来说:
- 全局融合对齐确保了点云的整体对齐性。
- 语义异常对齐则在局部尺度上对异常点进行了修正,提高了局部对齐的准确性。
我们在三个流行的基准数据集上对SPARS3R方法进行了评估,发现与当前的SOTA方法相比,SPARS3R方法在数量和视觉上都有显著改善。
2.Related Work
2.1 3D新视角合成
逼真的场景重建和新颖的视图合成是计算机视觉和图形领域的一项长期任务。 神经辐射场 (NeRF) [35] 提出通过将 3D 坐标和视图方向映射到颜色和密度,然后通过 alpha 混合渲染像素值,使用多层感知器 (MLP) 隐式建模场景。 自从 NeRF 推出以来,许多工作都在寻求提高其效率 [5, 16, 20, 36, 44, 47]、质量 [1–3, 7, 49] 以及扩展到动态和野外 [4, 6、8、17、34、42、43、46、53、57]场景。 最近,3D 高斯泼溅 (3DGS) [24] 已成为一种有效的替代方案,提供比 NeRF 更高的渲染质量。 与 NeRF 不同,3DGS 表示具有显式 3D 高斯内核的场景,并使用可微分光栅化技术。 其推出后,出现了许多方法来降低 3DGS 的计算成本 [13,21,28,37,38] 并提高 3DGS 的质量 [9,33,40,55,60,61]。
2.2 3DGS稀疏重建
虽然 3DGS 在密集视图支持下表现良好,但在稀疏输入的实际设置中其有效性会降低。 许多方法通过深度限制来解决这个问题。 FSGS [62] 使用邻近引导的高斯反池化来缓解稀疏初始化问题,并在训练期间引入伪视图以避免过度拟合。 DRGS [11] 和 SparseGS [54] 添加了深度正则化项,以强制估计深度和单目深度之间的一致性,同时提高平滑度。 DNGS [31]通过优先考虑局部深度变化来完善深度正则化。 CoherentGS [41] 从单目深度估计初始化高斯,并通过光流约束提高相干性。 InstantSplat [14]是一项并发工作,直接使用DUSt3R生成密集点云并引入相机位姿优化策略,以减少GS训练过程中因为pose误差引起的floater。
3.Methods
3.1Preliminary
DUSt3R主要在做的事情是:给定稀疏视角图片,得到对应的pointmap,也就是 2D 到 3D 对应关系。 然后,DUSt3R [51] 通过将成对点图全局对齐到统一的点云来聚合所有成对点图预测,该对齐过程还产生估计的相机参数
,它们是世界到相机的变换矩阵和视图
的投影变换的仿射近似的雅可比行列式。因此,视图
中像素
=(u,v)与点云
i之间的关系可以表示为:
在此基础上,MASt3R[29]加入了额外的匹配头,该匹配头可在成对图像上生成可区分的局部特征描述符和像素级对应。我们注意到,虽然MASt3R[29]在其多深度对齐过程中使用了这种特征对应关系,但由于平滑的深度预测,估计的姿势往往不准确。
3.2 SPARS3R
如图2所示,SPARS3R建立在DUST3R[51]和MAST3R[29]的基础上,作为用于稀疏视图重建的预先训练的3D先验。首先,SPARS3R基于来自MAST3R[29]的图像对应或其他特征匹配方法执行SfM。然后,SPARS3R