重现复杂城市环境!ULSR-GS:超大规模场景高保真表面提取框架

点击下方卡片,关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

基于 GS 的大规模表面重建挑战

3D 高斯点散射(3D Gaussian Splatting, 3DGS)作为一种开创性的方法,在 3D 表面重建和渲染领域展现了卓越的能力,可实现高质量的场景表示并支持提取细节丰富的网格。然而,现有基于 GS 的研究主要集中于小规模表面重建大规模场景渲染,但并未针对大规模城市表面重建进行优化。在基于 GS 的大规模城市表面重建应用中存在稀缺性的原因主要包括以下几个方面:

  1. 计算复杂性:处理庞大的城市数据集需要耗费大量计算资源和显存,对于单 GPU 的任务尤为困难,这对 GS 方法的可扩展性构成了重大挑战。

  2. 分区策略的局限性:现有大规模基于 GS 的方法通常针对场景渲染进行了优化,而它们的分区策略并未针对网格重建任务进行调整。

  3. 重建质量问题:某些区域的密化处理不足,尤其是在处理数千幅航拍倾斜影像时,导致重建精度受限。

e964988584380d9a32f9c178390b7cd5.jpeg

ULSR-GS[1]是一种结合点到图像划分方法与多视图约束密化的方法,用于应对基于 GS 的大规模表面重建挑战。具体而言,不同于基于图像位置的分区方法,基于匹配的多视图图像选择最优的视图集合,并考虑每个点的摄像机角度、距离和配对质量等因素。这种有针对性的图像选择不仅能够通过利用最有信息量的图像确保高质量的表面重建,还能够减少冗余数据的处理。此外,我们引入了一种多视图训练策略,该策略在每次训练迭代时基于与当前处理图像最佳匹配的视图施加额外约束。这种训练策略通过利用多个角度的最有信息量图像,实现了更稳健且一致的重建。我们进一步在密化过程中融入多视图一致性约束,从而确保密化步骤在跨视图几何关系一致的前提下进行,生成更精确的表面细节。

项目主页:https://ulsrgs.github.io/

主要贡献

  • 提出了一种专为克服现有基于 GS 的方法在大规模表面重建中的局限性而设计的新方法 ULSR-GS。

  • 提出了一种创新的点到图像场景划分策略,用于大规模场景网格提取中的 GS 方法。该策略基于最佳匹配视图选择每个子区域的图像,提高了重建精度。

  • 提出了用于密化过程的多视图一致性约束,在大规模城市环境中生成了详细且精确的重建结果。

具体方法

多视图优化点划分

与之前研究基于无人机照片位置进行区域划分的方式不同,我们的方法基于场景的初始点云,并为每个子区域的点云选择最佳训练图像。此方法的优势在于能够在早期阶段确定每个子区域网格的提取边界,而无需在整个场景合并后再进行提取。

80f657358436efd940b9dd2ad56bfe4f.png
密度控制的边界精化

为了有效地将初始点划分为 子区域,关键在于隔离场景的主要结构组件,并消除可能扭曲边界定义的稀疏和噪声的结构化运动(SfM)点。

  1. 清理点云:首先,移除所有 SfM 重投影误差【29】大于阈值 (实验中 $\epsilon_{\text{error}} > 1.5\))的 3D 点。这一步通过丢弃不可靠的点清理了点云,避免了划分过程中被错误点干扰。

  2. 划分体素网格:将 3D 空间划分为体素网格 ,其大小为 ,并根据每个点的坐标将 SfM 点 分配到对应体素:

    对于每个体素 ,计算包含的点数 :

    其中 为 Kronecker δ 函数【15】。

  3. 密度阈值过滤:计算最大体素占用数 的阈值比例(如 ),并将 的体素保留为高密度体素。

  4. 确定边界:通过计算点的最小和最大坐标获取场景的精确边界。

初始视图选择

如图 2(I)所示,输入的 SfM 点云经过密度过滤后被划分为 网格。每个子区域中的点都作为检测到它的图像的特征点,初步选择所有匹配的图像作为粗粒度的视图选择(见图 2(e))。

源视图选择

为了进一步优化视图选择,在公式 (1) 基础上,基于相机对距离 应用区域约束,仅选择距离小于指定最大阈值 的图像对。最终的匹配得分 为:

否则

然后,为每个参考图像 ,选择具有最高匹配分数 的前三个源图像 组成最佳视图集合。

每点最优视图选择

目标是确保子区域内的每个 SfM 点都与最具信息量和几何鲁棒性的图像对相关联。具体步骤如下:

  1. 将每个点 投影到参考图像 和对应的源图像 的 2D 图像平面上。

  2. 计算每个投影点与对应图像中心的平均欧几里得距离 。

  3. 在所有观察 的四图像组中,选择 最小的组。

通过这种方式, 主要由距离图像中心最近的图像重建,从而提升三角化的可靠性。

去除冗余图像

在确定所有子区域内最佳图像组后,排除不在任何最佳组中的图像。实验中,这些被排除的图像通常位于子区域的最外侧,属于只能观察到少量点的冗余图像。

自适应多视图密化

先前的研究表明,较精细的高斯原语对于捕捉高频几何细节至关重要。在 ULSR-GS 中,我们通过一种类似于多视图立体(MVS)的方法进行额外的密化,以解决基于 TSDF 融合的 计算导致的网格过于平滑的问题。此方法将 投影到 3D 空间,并结合 GT 图像的 RGB 信息来丰富高斯原语。

多视图深度聚合

在我们的方法中,我们对来自多个源视图的深度信息进行加权平均聚合。加权方式为每个深度估计分配一个基于几何一致性的置信分数,确保几何一致性更高的源视图在最终深度估计中占据更大权重。

具体来说,我们从公式 (8) 中选择了三个源视图,每个源视图的渲染深度 表示为 ()),参考视图的深度图为D_{\text{ref}}。对于参考视图中的每个像素p_{\text{ref}},最终融合的深度估计D_{\text{final}}(p_{\text{ref}})$ 通过源视图的加权融合获得:

其中, 是 在第 个源视图中对应的投影像素处的深度值,权重 基于几何一致性分数,衡量第 个源视图中深度估计的可靠性:

其中,深度误差 定义为参考视图与源视图间的深度差:

自适应深度密化

直接投影所有几何一致性检查后的深度信息会向训练场景引入过多的冗余信息,这会对训练速度和场景表示的精确性产生负面影响。为了解决此问题,我们引入了一种自适应密化窗口掩码,限制密化区域范围。这种方法能够剔除深度图边缘的错误值,并自适应地处理由视点变化引起的非均匀深度变化。

  1. 窗口大小自适应调整:基于深度梯度 表示每个像素 处的深度变化率,窗口大小与平均梯度 成反比,表示深度变化较大的区域使用较小的窗口以捕捉更细致的细节,而深度变化较小的区域使用较大的窗口。首先计算深度图大小为 的平均梯度 :

    基于平均梯度 ,窗口的高度和宽度根据场景深度变化动态调整:

    其中, 和 是控制窗口大小变化的比例常数, 用于避免梯度过小时的除零问题。

  2. 深度投影:在通过公式 (9) 进行几何一致性检查和深度融合后,将窗口内的深度 投影到 3D 空间:

    其中 是相机内参矩阵的逆矩阵, 是从窗口化深度图投影的 3D 点。

  3. 一致性调整:按照 MVG-Splatting【18】的设置,在每次密化步骤后,对新增的高斯原语执行额外的重缩放和旋转对齐操作,以确保场景内的一致性。

损失函数

在多视图训练过程中,为了优化几何一致性和重建质量,我们定义了以下损失函数来指导模型训练。

几何一致性损失

几何一致性通过参考视图的重投影深度 和源视图的深度 的重投影误差进行优化。公式如下:

该损失项可以确保在重建过程中多视图深度信息之间的一致性。

多视图法向量一致性损失

对于每个投影点,我们计算参考视图法向量 和源视图法向量 之间的角误差。通过优化法向量一致性,确保几何形状在不同视角下保持一致。公式如下:

最终损失函数

最终的损失函数综合考虑了深度一致性、法向量一致性,以及其他几何和纹理相关的约束:

其中:

  • 和 是控制各项误差项贡献权重的平衡参数;

  • 包括来自 2D Gaussian Splatting 的两部分正则化:深度失真 和法向量一致性 ;

  • 表示 RGB 重建损失,包括 L1 损失和 D-SSIM 度量。

训练目标

通过组合这些损失项,我们的优化目标是实现多视图深度信息的几何一致性,同时确保法向量方向的一致性,从而提升模型在复杂场景中的重建精度和细节表现。

实验效果

23e2c7a78e22c671626bbe7cac412870.png 6a97010ad7c33ba5757b67b992d5ca15.png 565e9da098a26a018298643d69d30d30.png f11a55559e056d682824ed2f56fa6ac2.jpeg 9ba22a777c7e2f8a9831d6df12f43712.png d9bc8406bdce7b64b1fb342a075df7b4.png a60d9e7a0e53d9fdd4e5cde0cc4060f5.png

总结一下

ULSR-GS是一种专注于超大规模场景高保真表面提取的框架。结合了分区策略与多视图选择策略。此外,ULSR-GS采用了一种基于多视图几何一致性的密化策略,以提升表面细节的精度。实验结果表明,ULSR-GS在大规模基准数据集上的表现优于其他基于GS的最新技术。

局限性

  • 高度反光区域(如水面和玻璃建筑)

  • 尽管准确地重新计算了渲染深度,但某些遮挡区域中容易出现计算误差

参考

[1] ULSR-GS: Ultra Large-scale Surface Reconstruction Gaussian Splatting with Multi-View Geometric Consistency

本文仅做学术分享,论文汇总于『3D视觉之心知识星球』,欢迎加入交流!

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区,由业内顶尖的3D视觉团队创办!聚焦维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

b1222a1d69e9237c74092e7bdd4bb300.jpeg

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。

7a297592320effebd71120c3c4274544.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值