S2Gaussian: Sparse-View Super-Resolution 3D Gaussian Splatting

最新推荐文章于 2025-04-05 13:12:59 发布

Ci_ci 17

最新推荐文章于 2025-04-05 13:12:59 发布

阅读量771

点赞数 26

文章标签： 3d python 超分辨率重建

本文链接：https://blog.youkuaiyun.com/su_zy_/article/details/146340386

版权

S2Gaussian: Sparse-View Super-Resolution 3D Gaussian Splatting
把稀疏视角重建和超分结合起来，角度新颖，且并非简单的加法，实现稀疏视角且低分辨率的下的高质量重建
翻译一下，方便自己看
在这里插入图片描述

在这里插入图片描述

图1. 我们提出了 S2Gaussian，这是一种新颖的框架，仅凭稀疏且低分辨率的输入视图即可重建高质量的 3D 场景，实现沉浸式渲染。S2Gaussian 展现出卓越的性能，能够重建出高保真且高分辨率的场景，具备清晰的几何结构和细腻的纹理，从而在实际应用中拥有更好的功能性和实用性。
Project Pagehttps://jeasco.github.io/S2Gaussian/.

Abstract

在本文中，我们雄心勃勃地针对一个既现实又具有挑战性的问题展开研究，即如何从视角不足且清晰度低的稀疏视图中重建高质量的3D场景。现有方法通常仅处理稀疏视图或低分辨率观测，而无法应对这种混合且复杂的场景。为此，我们提出了一种新颖的稀疏视图超分辨率3D高斯撒点框架——S2Gaussian，该框架仅凭稀疏和低分辨率视图即可重建结构准确且细节逼真的3D场景。

S2Gaussian采用两阶段的工作流程。第一阶段，我们利用深度正则化先对低分辨率的高斯表示进行优化，并通过专门设计的高斯洗牌分割（a tailored Gaussian Shuffle Split operation. ）操作将其稠密化，以初始化高分辨率高斯。第二阶段，我们利用原始稀疏视图和低分辨率高斯渲染的伪视图生成的超分辨图像来细化高分辨率高斯，其中精心设计了定制的无模糊不一致性建模方案和3D鲁棒优化策略，以缓解多视角不一致问题并消除因监督不完美而产生的错误更新。
PS：感觉这里比较重要
大量实验结果表明，我们的方法取得了卓越的效果，特别是在几何一致性和细节表现上达到了新的最先进水平。

Introduction

虚拟现实和元宇宙技术的迅速发展显著提升了对真实感3D场景重建的需求，这在医学、教育、娱乐等各个应用领域都具有巨大潜力。在近期的一些重要进展中，神经辐射场（NeRF）[24]在合成逼真图像方面展现了卓越能力；然而，尽管不断改进[4, 10, 11, 25]，其在渲染和训练上的成本依然不容小觑。最近，（3DGS）[18]作为一种突出的方案脱颖而出，其特点在于高质量、快速的重建速度以及支持实时渲染。随后的一系列研究工作[5, 6, 22, 31, 38, 44]则致力于拓展3DGS在不同场景下的适用性。
不幸的是，**这些方法通常高度依赖于密集且高分辨率的图像才能实现令人印象深刻的新视角合成，**而在实际应用中，这种数据采集既繁琐又有时不切实际。为了解决这一挑战，已有多种方法致力于从稀疏视图【7,8,21,26,34,39,41,49】或低分辨率视图【9,12,20,30,42,43】重建3D场景，并取得了可喜的成果。然而，这两个难题——视图稀疏性与分辨率低——长期以来被视为互不相关的问题并分别加以解决，而实际应用中的输入视图往往同时面临视角不足与清晰度受限的双重挑战。
ps：这两个方向确实有一定关联性
尤其是在机器人和互联网采集图像等场景中，由于环境条件与硬件传输限制，可用视图既稀少又分辨率低，这种稀疏性与低分辨率的叠加对现有重建框架提出了巨大挑战。此外，简单地将现有超分辨率方法与稀疏视图重建方法相结合并不可行：超分辨率需要密集监督以恢复细节，而稀疏视图正则化不仅无法补充细节，反而容易导致重建结果过度平滑。

为此，本文提出了一种新颖的3D重建框架——S2Gaussian，能够仅凭稀疏且低分辨率的视图重建结构精确且细节丰富的3D场景。具体而言，S2Gaussian包括两个主要阶段：高分辨率高斯（HR‑GS）初始化阶段与HR‑GS优化阶段。在初始化阶段，我们首先利用稀疏视图及其估计深度信息优化低分辨率高斯表示；
PS:用深度估计模型了吗
随后，通过专门设计的高斯洗牌分割（Gaussian Shuffle Split）操作，将优化后的低分辨率高斯稠密化为更紧凑的高分辨率高斯，
PS：不太懂
以支持高分辨率场景中细粒度细节的重建。在优化阶段，我们借助预训练超分辨率模型生成的超分辨率图像，同时利用原始稀疏视图与由低分辨率高斯渲染的伪视图，对高分辨率高斯进行细化。为减轻多视角不一致性和监督误差带来的负面影响，我们引入了无模糊不一致性建模方案及3D鲁棒优化策略，
PS：这个重点瞅瞅
最终实现了更丰富细节与更高质量的场景重建。大量实验结果表明，S2Gaussian在多项基准测试上均优于现有方法，达到了新的最先进水平。

综上所述，主要贡献如下：
• 我们提出了一种创新的两阶段框架——S2Gaussian，该框架仅利用稀疏且低分辨率的输入视图重建结构准确且细节丰富的3D场景。
• 我们设计了一种专用的高斯洗牌分割操作，用于初始化更紧凑的高斯原语，以便在高分辨率场景中表示细粒度的细节和纹理。
• 我们引入了定制的无模糊不一致性建模方案以及3D鲁棒优化策略，以解决多视角不一致性问题，并纠正因监督不完美而导致的错误更新。
• 我们的S2Gaussian重建的高斯表示更为细致且高质量，在多个基准测试中显著优于现有方法。

2. Related Work

2.1. Novel View Synthesis using Radiance Fields

新视角合成技术通常涉及利用有限数量的输入视图来学习3D表示，并从任意新视角生成图像。近期，神经辐射场 (NeRF) [24] 在这一领域取得了令人鼓舞的进展，其通过基于坐标的神经网络和体积渲染函数学习隐式神经场景表示以实现新视角合成。后续研究广泛致力于提升 NeRF 的渲染质量 [1–3, 32]、提高效率 [4, 10, 11, 25]、推进场景理解 [19, 47, 48] 以及促进 3D 内容生成 [15, 27, 29]。不幸的是，尽管 NeRF 显著提升了新视角渲染的质量，但其昂贵的训练时间和缓慢的渲染速度阻碍了更广泛的实际应用。

最近，Kerbl 等人 [18] 提出了一种具有突破性的 3D 高斯撒点 (3DGS) 方法，通过结合显式高斯表示与可微分光栅化技术，大幅提升了渲染效率。在 3D 高斯撒点表示的基础上，众多后续工作 [6, 22, 31, 38, 44] 致力于将 3DGS 扩展到各种场景中。然而，这些方法通常需要密集且高质量的输入视图以实现令人印象深刻的新视角合成，并且在仅提供稀疏或降质视图时，容易过拟合训练数据并降低表示质量，从而导致目标场景重建的性能显著下降。

2.2. Sparse Novel View Synthesis

2.3. Super-Resolution Novel View Synthesis

超分辨率新视角合成旨在仅利用低分辨率多视角输入重建高分辨率3D场景。不同于那些无法渲染新视角复杂细节且受限于输入图像信息水平的抗混叠方法【1,2,44】，该领域更加关注对潜在高分辨率场景进行细粒度和细致入微的高分辨率渲染。作为该领域的先驱，NeRF-SR【33】通过超采样策略优化高分辨率NeRF，确保低分辨率像素的数值与高分辨率子像素的均值一致。后续工作则旨在利用高分辨率参考图像【16】或预训练的2D模型【12,20,42】生成多视角一致的细节。同时，SRGS【9】和GaussianSR【43】分别提出了利用2D超分辨率模型进行纹理注入或扩散先验探索的方法。SuperGaussian【30】进一步证明了一种配置框架，能够重新利用视频上采样模型来实现3D超分辨率。
PS：神奇，可以看看
不同于上述方法，本文雄心勃勃地通过提出一种新颖的两阶段框架，旨在联合解决稀疏视角和超分辨率新视角合成的挑战，该框架巧妙地解决了因视角和清晰度不足而导致的几何不精确与细节缺失问题，从而使得在实际应用中更具吸引力和可行性
。

3. Methodology

3.1. Preliminaries

想必大家都懂

3.2. S2Gaussian Overview

提出的 S2Gaussian 示意图如图 2 所示。S2Gaussian 主要由两个阶段组成，即高分辨率高斯（HR GS）初始化阶段和高分辨率高斯优化阶段。在 HR GS 初始化阶段，我们首先利用稀疏视图以及预测的深度信息优化低分辨率高斯表示，然后通过我们定制的高斯洗牌分割操作，对高斯原语进行稠密化和细化，从而初始化高分辨率高斯表示。在 HR GS 优化阶段，我们进一步利用预训练的超分辨率模型生成的超分辨率图像对高分辨率高斯进行优化，这些图像既来自原始稀疏视图，也来自低分辨率高斯渲染的伪视图。特别地，我们提出了一种专用的无模糊不一致性建模方案和 3D 鲁棒优化策略，以消除多视图不一致性和不完善监督的影响，从而重建出更为细致且高质量的 3D 场景。
ps：重复了，怎么感觉

具体来说，我们首先利用预训练的单目深度估计模型 [28] 为稀疏低分辨率训练视图获取单目深度图。
ps：是这样的用了深度估计模型Vision Transformers for Dense Prediction，为啥不用depth anything，或者其他的大模型？

接着，我们利用 RGB 图像和深度图，结合成熟的深度正则化技术 [21, 49]，
#ps：利用深度图的方法
共同优化低分辨率高斯表示，其中本文采用皮尔逊相关损失 [49] 作为基线。随后，提出了一种定制的高斯洗牌分割机制，用以稠密化和细化稀疏的高斯原语，从而初始化高分辨率高斯，以更好地表达高分辨率下的细粒度细节。

在这里插入图片描述
图 2. S2Gaussian 概览。S2Gaussian 首先优化低分辨率的高斯表示（LR GS），并通过定制的高斯洗牌分割操作将其稠密化，从而初始化高分辨率高斯表示（HR GS）。随后，原始稀疏视图与通过低分辨率高斯渲染的伪视图一同进行超分辨处理，以利用 3D 鲁棒优化进一步完善高分辨率纹理。在此过程中，结合了不一致性建模模块（IM）和去模糊提议模块，以缓解视图间的不一致性和模糊问题，旨在创建具有高保真纹理细节的 3D 场景。
Gaussian Shuffle Split。对于重建场景细节来说，精确而详细的初始化至关重要 [18]。虽然在低分辨率视图优化之后，整个 3D 场景的结构和布局基本得到了保证，但初始化的稀疏且粗糙的高斯椭球在模拟高分辨率细节时显得力不从心，而高分辨率细节的表达需要更密集的高斯表示 [40]。即使配备了自适应密度控制 [18]，在我们的设置中也难以满足要求，因为既缺乏密集视角，也缺少高质量细节用于监督。为了解决这一问题，我们提出了一种无需训练的局部高斯增密策略——Gaussian Shuffle Split，通过将原有的大高斯替换为六个小高斯，从而提供更多可调动的高斯原语，以便在高分辨率场景中更全面地模拟细粒度细节和纹理。

在这里插入图片描述
如图 3 所示，给定具有属性 {μ, s, q, σ, c} 的高斯原语，我们首先生成六个副本，每个副本的中心沿着与原始高斯的三个主轴对齐的六个方向中的一个进行偏移，即每个轴的正方向和负方向。对于每个轴的偏移量设置为该轴对应的缩放值 s = [s1, s2, s3] 的 α 倍（默认 α 为 0.5）。因此，六个子高斯的新位置可以表示为：
在这里插入图片描述其中 λ 在实验中设定为 1.9，我们发现这一比例能够确保子高斯的组合表示更好地逼近原始高斯，从而保持 3D 场景的完整性。所有其他属性，即旋转 q、不透明度 α 和颜色 c 均与原始高斯椭球保持一致。这六个子高斯的组合被用来替换原始的大高斯，以实现更密集的 3D 表示。我们仅对不透明度大于 0.5 的高斯原语应用 Gaussian Shuffle Split，因为这些原语更有可能用于表示物体表面和关键结构，而这些部分在高分辨率场景中需要更为精细的表达。应用 Gaussian Shuffle Split 后，所有原语的不透明度都被设定为接近零，以便自动淘汰那些不透明度较低的冗余高斯。

3.4. Stage 2: HR GS Optimization
在已初始化的高分辨率高斯的基础上，本阶段旨在利用原始稀疏视图和由低分辨率高斯渲染生成的伪视图所产生的超分辨图像继续对其进行优化。我们按照 [49] 中的方法，通过在两个已知视图之间插值虚拟视图来合成伪视图。考虑到与 3D 超分辨率模型相关的数据成本过高以及其计算复杂性，我们主张使用现成的预训练 2D 超分辨率模型来增强低分辨率视图。不幸的是，直接利用 2D 超分辨率模型无法确保多视角一致性，而且由于存在尚未经过优化的区域，低分辨率伪视图不可避免地会出现伪影。在试图适应这些不一致性和错误表示的过程中，高斯原语会导致优化后的 3D 场景趋向于不准确的结构和模糊。在优化过程中，有两个关键方面从根本上导致了这些问题，即不一致的监督和由伪影引起的错误更新。因此，接下来我们提出了一种定制的无模糊不一致性建模方案和一种 3D 鲁棒优化策略，以缓解可能出现的不准确重建问题。
在这里插入图片描述
Blur-Free Inconsistency Modeling.
为了缓解单幅图像超分辨率模型产生的不一致性问题，我们在预训练的超分辨率模型之后引入了一个可学习的不一致性建模模块（IM），**，即两个残差块 [13]，以模拟不同视角之间的不一致性，公式表示为 IIM_SR = ISR + IM(ISR)，从而避免让高斯来表示这种不一致性。然而，我们在实验中发现，该模块在优化过程中为了获得更好的一致性往往会丢失细节，导致纹理变得不够清晰。因此，我们进一步提出了一个模糊提议模块（BP），用于对渲染图像进行模糊处理，再将模糊后的图像与修改后的超分辨率图像 IIM_SR 进行约束，从而补偿由 IM 引起的细粒度细节和纹理损失。**模糊提议模块是一个由四层卷积网络构成的模型，它以梯度分离的渲染图像 Rdetach_HR 作为输入，预测每个像素的模糊核 Bk ∈ ℝ^(K×K×H×W)（其中 K 为模糊核大小，对于 4× 任务取 5），即 Bk = BP(Rdetach_HR)。然后，通过 Rblur_HR = R_HR ∗ Bk 得到模糊后的高分辨率图像，该图像用于与 IIM_SR 计算损失，从而避免直接对 R_HR 施加约束所带来的平滑效果：

在这里插入图片描述
3D 鲁棒优化。尽管上述方案能够克服多视角不一致性带来的不利影响，但高斯的优化仍不可避免地受到伪视图中部分区域未得到充分优化而导致的监督不足问题的困扰。为此，我们通过实验证明，利用正常高质量视图优化高斯原语能够产生稳定且整体一致的梯度（如图 4 左上所示），而受损的视图则会引发显著的扰动和梯度混淆（如图 4 中上所示），最终导致渲染结果模糊。受到这一观察的启发，我们旨在设计一种更鲁棒的优化策略，以缓解因不完美监督引起的梯度波动。更具体地，我们对标准高斯原语进行增强……
在这里插入图片描述
在每个高斯上附加一个额外的属性标志梯度 ∇ ∈ ℝ^(11+kc)。其中，∇ 用于记录高斯其他属性的梯度趋势，即 μ、s、q、σ 以及变化后的 kc SH 系数。如图 4 所示，对于每个高斯，在一次优化步骤中，我们首先计算每个属性的当前梯度 gcᵢ（其中 i 表示不同的属性）与存储在 ∇ 中对应的标志梯度 ∇(gᵢ) 之间的余弦相似度。如果余弦相似度大于零，表明梯度更新趋势一致，则梯度 gcᵢ 将被直接用于优化该参数，同时将标志梯度值 ∇(gᵢ) 更新为二者的平均值：
相反，如果余弦相似度小于或等于零，表明可能存在干扰，则当前梯度将按因子 ε 缩放以减缓参数更新，并按照以下方式更新 ∇(gᵢ)：
在这里插入图片描述

其中 ε 设置为 0.1，用以衰减可能存在错误的更新，同时保留转变更新趋势的能力。在实际应用中，这一策略可以与任何基于梯度的优化器（例如 Adam）相结合，只需将修改后的梯度传递给相应的优化器即可。值得注意的是，在优化完成后，∇ 将被剔除，不会影响渲染速度和存储消耗。

如图 4 右上所示，我们提出的 3D 鲁棒优化方案通过消除错误更新和扰动，能够显著提升高斯原语优化的稳定性，从而重构出更准确且高质量的 3D 表示。
总目标。除了 LSR 外，还部署了一种辅助损失，该损失结合了全变差（TV）损失和子像素约束，以稳定训练：
在这里插入图片描述
其中 ↓ 表示区域平均下采样，ILR 表示超分辨之前的低分辨率图像。总之，高分辨率高斯优化的最终损失 L 定义如下：

在这里插入图片描述
我们在原始 3DGS 代码库基础上实现了 S2Gaussian，所有实验均在一块 RTX3090 GPU 上进行。对于低分辨率 GS 的优化，我们采用预训练的 DPT [28] 模型进行深度估计，总迭代次数设置为 10,000。在高分辨率 GS 优化阶段，高斯原语进一步优化额外 10,000 次迭代。至于现成的 2D 超分辨率模型**，我们选用了基于扩散的强大 ResShift [45] 作为骨干网络**。实验在三个基准数据集上进行，使用 SfM 进行初始化，虽然像 DUSt3R [36] 这样的先进技术可以促进初始化，但这并非我们当前工作的主要目的。
在这里插入图片描述

在这里插入图片描述