重现复杂城市环境！ULSR-GS：超大规模场景高保真表面提取框架-优快云博客

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

基于 GS 的大规模表面重建挑战

3D 高斯点散射（3D Gaussian Splatting, 3DGS）作为一种开创性的方法，在 3D 表面重建和渲染领域展现了卓越的能力，可实现高质量的场景表示并支持提取细节丰富的网格。然而，现有基于 GS 的研究主要集中于小规模表面重建或大规模场景渲染，但并未针对大规模城市表面重建进行优化。在基于 GS 的大规模城市表面重建应用中存在稀缺性的原因主要包括以下几个方面：

计算复杂性：处理庞大的城市数据集需要耗费大量计算资源和显存，对于单 GPU 的任务尤为困难，这对 GS 方法的可扩展性构成了重大挑战。
分区策略的局限性：现有大规模基于 GS 的方法通常针对场景渲染进行了优化，而它们的分区策略并未针对网格重建任务进行调整。
重建质量问题：某些区域的密化处理不足，尤其是在处理数千幅航拍倾斜影像时，导致重建精度受限。

ULSR-GS[1]是一种结合点到图像划分方法与多视图约束密化的方法,用于应对基于 GS 的大规模表面重建挑战。具体而言，不同于基于图像位置的分区方法，基于匹配的多视图图像选择最优的视图集合，并考虑每个点的摄像机角度、距离和配对质量等因素。这种有针对性的图像选择不仅能够通过利用最有信息量的图像确保高质量的表面重建，还能够减少冗余数据的处理。此外，我们引入了一种多视图训练策略，该策略在每次训练迭代时基于与当前处理图像最佳匹配的视图施加额外约束。这种训练策略通过利用多个角度的最有信息量图像，实现了更稳健且一致的重建。我们进一步在密化过程中融入多视图一致性约束，从而确保密化步骤在跨视图几何关系一致的前提下进行，生成更精确的表面细节。

项目主页：https://ulsrgs.github.io/

主要贡献：

提出了一种专为克服现有基于 GS 的方法在大规模表面重建中的局限性而设计的新方法 ULSR-GS。
提出了一种创新的点到图像场景划分策略，用于大规模场景网格提取中的 GS 方法。该策略基于最佳匹配视图选择每个子区域的图像，提高了重建精度。
提出了用于密化过程的多视图一致性约束，在大规模城市环境中生成了详细且精确的重建结果。

具体方法

多视图优化点划分

与之前研究基于无人机照片位置进行区域划分的方式不同，我们的方法基于场景的初始点云，并为每个子区域的点云选择最佳训练图像。此方法的优势在于能够在早期阶段确定每个子区域网格的提取边界，而无需在整个场景合并后再进行提取。

密度控制的边界精化

为了有效地将初始点划分为子区域，关键在于隔离场景的主要结构组件，并消除可能扭曲边界定义的稀疏和噪声的结构化运动（SfM）点。

清理点云：首先，移除所有 SfM 重投影误差【29】大于阈值（实验中 $\epsilon_{\text{error}} > 1.5\））的 3D 点。这一步通过丢弃不可靠的点清理了点云，避免了划分过程中被错误点干扰。
划分体素网格：将 3D 空间划分为体素网格，其大小为，并根据每个点的坐标将 SfM 点分配到对应体素：
对于每个体素，计算包含的点数：
其中为 Kronecker δ 函数【15】。
密度阈值过滤：计算最大体素占用数的阈值比例（如），并将的体素保留为高密度体素。
确定边界：通过计算点的最小和最大坐标获取场景的精确边界。

初始视图选择

如图 2（I）所示，输入的 SfM 点云经过密度过滤后被划分为网格。每个子区域中的点都作为检测到它的图像的特征点，初步选择所有匹配的图像作为粗粒度的视图选择（见图 2(e)）。

源视图选择

为了进一步优化视图选择，在公式 (1) 基础上，基于相机对距离应用区域约束，仅选择距离小于指定最大阈值的图像对。最终的匹配得分为：

否则

然后，为每个参考图像，选择具有最高匹配分数的前三个源图像组成最佳视图集合。

每点最优视图选择

目标是确保子区域内的每个 SfM 点都与最具信息量和几何鲁棒性的图像对相关联。具体步骤如下：

将每个点投影到参考图像和对应的源图像的 2D 图像平面上。
计算每个投影点与对应图像中心的平均欧几里得距离。
在所有观察的四图像组中，选择最小的组。

通过这种方式，主要由距离图像中心最近的图像重建，从而提升三角化的可靠性。

去除冗余图像

在确定所有子区域内最佳图像组后，排除不在任何最佳组中的图像。实验中，这些被排除的图像通常位于子区域的最外侧，属于只能观察到少量点的冗余图像。

自适应多视图密化

先前的研究表明，较精细的高斯原语对于捕捉高频几何细节至关重要。在 ULSR-GS 中，我们通过一种类似于多视图立体（MVS）的方法进行额外的密化，以解决基于 TSDF 融合的计算导致的网格过于平滑的问题。此方法将投影到 3D 空间，并结合 GT 图像的 RGB 信息来丰富高斯原语。

多视图深度聚合

在我们的方法中，我们对来自多个源视图的深度信息进行加权平均聚合。加权方式为每个深度估计分配一个基于几何一致性的置信分数，确保几何一致性更高的源视图在最终深度估计中占据更大权重。

具体来说，我们从公式 (8) 中选择了三个源视图，每个源视图的渲染深度表示为（）），参考视图的深度图为D_{\text{ref}}。对于参考视图中的每个像素p_{\text{ref}}，最终融合的深度估计D_{\text{final}}(p_{\text{ref}})$ 通过源视图的加权融合获得：

其中，是在第个源视图中对应的投影像素处的深度值，权重基于几何一致性分数，衡量第个源视图中深度估计的可靠性：

其中，深度误差定义为参考视图与源视图间的深度差：

自适应深度密化

直接投影所有几何一致性检查后的深度信息会向训练场景引入过多的冗余信息，这会对训练速度和场景表示的精确性产生负面影响。为了解决此问题，我们引入了一种自适应密化窗口掩码，限制密化区域范围。这种方法能够剔除深度图边缘的错误值，并自适应地处理由视点变化引起的非均匀深度变化。

窗口大小自适应调整：基于深度梯度表示每个像素处的深度变化率，窗口大小与平均梯度成反比，表示深度变化较大的区域使用较小的窗口以捕捉更细致的细节，而深度变化较小的区域使用较大的窗口。首先计算深度图大小为的平均梯度：
基于平均梯度，窗口的高度和宽度根据场景深度变化动态调整：
其中，和是控制窗口大小变化的比例常数，用于避免梯度过小时的除零问题。
深度投影：在通过公式 (9) 进行几何一致性检查和深度融合后，将窗口内的深度投影到 3D 空间：
其中是相机内参矩阵的逆矩阵，是从窗口化深度图投影的 3D 点。
一致性调整：按照 MVG-Splatting【18】的设置，在每次密化步骤后，对新增的高斯原语执行额外的重缩放和旋转对齐操作，以确保场景内的一致性。

损失函数

在多视图训练过程中，为了优化几何一致性和重建质量，我们定义了以下损失函数来指导模型训练。

几何一致性损失

几何一致性通过参考视图的重投影深度和源视图的深度的重投影误差进行优化。公式如下：

该损失项可以确保在重建过程中多视图深度信息之间的一致性。

多视图法向量一致性损失

对于每个投影点，我们计算参考视图法向量和源视图法向量之间的角误差。通过优化法向量一致性，确保几何形状在不同视角下保持一致。公式如下：

最终损失函数

最终的损失函数综合考虑了深度一致性、法向量一致性，以及其他几何和纹理相关的约束：

其中：

和是控制各项误差项贡献权重的平衡参数；
包括来自 2D Gaussian Splatting 的两部分正则化：深度失真和法向量一致性；
表示 RGB 重建损失，包括 L1 损失和 D-SSIM 度量。

训练目标

通过组合这些损失项，我们的优化目标是实现多视图深度信息的几何一致性，同时确保法向量方向的一致性，从而提升模型在复杂场景中的重建精度和细节表现。

实验效果

总结一下

ULSR-GS是一种专注于超大规模场景高保真表面提取的框架。结合了分区策略与多视图选择策略。此外，ULSR-GS采用了一种基于多视图几何一致性的密化策略，以提升表面细节的精度。实验结果表明，ULSR-GS在大规模基准数据集上的表现优于其他基于GS的最新技术。

局限性：

高度反光区域（如水面和玻璃建筑）
尽管准确地重新计算了渲染深度，但某些遮挡区域中容易出现计算误差

参考

[1] ULSR-GS: Ultra Large-scale Surface Reconstruction Gaussian Splatting with Multi-View Geometric Consistency

本文仅做学术分享，论文汇总于『3D视觉之心知识星球』，欢迎加入交流！

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。