3DGS论文中文版(理论部分)

摘要:

最近,辐射场方法彻底改变了使用多张照片或视频捕获的场景的新视角合成技术。但是,要达到高视觉质量,仍然需要训练和渲染成本很高的神经网络。而最近一些速度更快的方法则不可避免地在速度和质量之间做出权衡。对于完整场景(而不仅仅是孤立的物体)以及1080p分辨率的渲染,目前还没有方法能够实现实时显示速率。

我们引入了三个关键部分,使我们能够在保持竞争力的训练时间的同时,实现最先进的视觉质量,并且重要的是,允许在1080p分辨率下进行高质量的实时(每秒≥30帧)新视角合成。首先,从相机校准过程中产生的稀疏点开始,我们使用3D高斯来表示场景,这种表示方法在优化场景时保留了连续体积辐射场的理想特性,同时避免了在空白空间中进行不必要的计算;其次,我们对3D高斯进行交错优化和密度控制,特别是优化各向异性协方差,以实现对场景的准确表示;第三,我们开发了一个快速的可见性感知渲染算法,支持各向异性溅射,既加快了训练速度,也允许实时渲染。我们在几个已建立的数据集上展示了最先进的视觉质量和实时渲染效果。

1 引言

网格和点是最常见的3D场景表示方法,因为它们很明确,并且非常适合快速的GPU/CUDA基础的光栅化处理。相比之下,最近流行的神经辐射场(NeRF)方法则基于连续的场景表示,通常通过体积光线行进技术优化一个多层感知器(MLP),用于捕获场景的新视角合成。同样,到目前为止最有效的辐射场解决方案也通过插值存储在体素(例如Fridovich-Keil和Yu等人在2022年的研究)或哈希(例如Müller等人在2022年的研究)网格或点(例如Xu等人在2022年的研究)中的值来构建连续表示。

虽然这些方法的连续性有助于优化,但渲染所需的随机采样成本很高,可能会导致噪声。我们引入了一种新的方法,结合了两种方法的优点:我们的3D高斯表示允许在优化时达到最先进的视觉质量,并且训练时间具有竞争力,而我们基于瓦片的溅射解决方案确保了在多个之前发布的数据集上,1080p分辨率的实时渲染能够达到最先进的质量(见图1)。这些数据集包括Barron等人在2022年、Hedman等人在2018年、Knapitsch等人在2017年的研究。

我们的目标是让使用多张照片捕获的场景能够进行实时渲染,并创建出优化时间尽可能快的表示,以赶上以往最高效方法的水平。最近的方法虽然实现了快速训练(例如Fridovich-Keil和Yu等人在2022年的研究,以及Müller等人在2022年的研究),但它们在视觉质量上难以达到当前最先进的NeRF方法(即Mip-NeRF360,Barron等人在2022年的研究)的水平,后者需要长达48小时的训练时间。虽然快速但质量较低的辐射场方法能够根据不同场景实现交互式渲染时间(每秒10-15帧),但它们在高分辨率下的实时渲染方面还是不够的。

我们的解决方案建立在三个主要组成部分上。首先,我们引入了3D高斯作为灵活且富有表现力的场景表示方法。我们使用与之前的NeRF类似方法相同的输入,即通过运动恢复结构(Structure-from-Motion,简称SfM)校准的相机,并使用SfM过程中免费产生的稀疏点云初始化一组3D高斯。大多数基于点的解决方案都需要多视图立体(Multi-View Stereo,简称MVS)数据作为支撑,而我们仅仅使用SfM点作为输入就能获得高质量的结果。请注意,对于NeRF合成数据集,即使采用随机初始化,我们的方法也能实现高质量渲染。3D高斯的渲染效果非常好,这是因为它们是可微分的体积表示。并且我们可以通过将3D高斯球投影到2D平面并应用标准的α混合来高效地实现光栅化,并使用与NeRF等效的图像形成模型。

我们方法的第二个组成部分是优化3D高斯的属性,即优化3D位置、不透明度α、各向异性协方差和球谐(Spherical Harmonics,简称SH)系数。属性的优化将与高斯的自适应密度控制步骤交错进行,即在优化过程中动态地添加或移除3D高斯。经过优化后,我们可以得到一个相当紧凑、非结构化且精确的场景表示(所有测试场景的高斯数量在1-500万之间)。

我们方法的第三个也是最后一个部分是我们的实时渲染解决方案,它使用快速的GPU排序算法,并受到基于瓦片的光栅化启发,遵循最近的工作。然而,由于我们的3D高斯表示,我们可以执行各向异性溅射,不过溅射的最终形态需要遵循可见性排序的结果(即在多个高斯重叠的区域,可见性高的高斯应覆盖在可见性低的高斯之上)。我们还通过网络跟踪所需数量的排序溅射的遍历来实现快速准确的反向传递。

总结来说,我们做出了以下贡献:

* 引入了高质量、非结构化表示的各向异性3D高斯作为辐射场。

* 提出了一种3D高斯的优化方法,属性优化与自适应密度控制交错进行,实现了场景的高质量的表示。

* 提出了一种快速、可微分的GPU渲染方法,具有可见性感知能力,允许各向异性溅射和快速反向传播,以实现高质量的新视角合成。

由在公开数据集上的实验结果表明,我们可以通过多视角图像优化我们的3D高斯,并实现与之前最佳的隐式辐射场方法相等或更好的质量。我们还可以实现与最快方法相似的训练速度和质量。重要的是,我们为新视角合成提供了首个具有高质量的实时渲染方法。

2 相关工作

我们首先简要回顾了传统的重建技术,然后讨论了基于点的渲染和辐射场的工作,并讨论了它们的相似性;辐射场是一个广泛的领域,因此我们只关注直接相关的工作。有关该领域的完整覆盖,请参见最近的优秀综述[塔瓦里等人,2022年;谢等人&#x

### Deformable 3D Gaussians (3DGS): 高保真单目动态场景重建 #### 背景与动机 随着计算机视觉技术的发展,高精度三维场景重建成为研究热点之一。然而,在处理动态场景时,传统方法往往面临计算复杂度高、实时性差以及难以适应快速变化环境等问题。为此,《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》提出了基于可变形3D高斯分布的方法来解决这些问题[^1]。 #### 方法概述 该论文的核心思想是利用参数化的3D高斯函数表示物体表面及其属性(如颜色)。通过优化这些高斯分布的位置、方向和形状,可以实现对动态场景的高度逼真的建模。具体来说: - **模型结构**: 使用一组稀疏控制点定义整个场景中的几何信息,并结合局部形变场调整每个高斯核的具体形态。 - **能量最小化框架**: 提出了一个新的目标函数用于联合估计全局运动轨迹与个体对象的状态更新规则。 - **高效渲染管线**: 设计了一种新颖的前向传播机制以加速最终图像合成过程的同时保持高质量输出效果。 #### 技术贡献 相比之前的工作,本文主要有以下几个方面的改进: 1. 引入了灵活可控的变形策略使得系统能够更好地捕捉到复杂的非刚体动作序列; 2. 开发了一个端到端训练流程从而简化了先前依赖手工设定超参的操作步骤 ; 3. 实验验证表明新方案不仅具备更强泛化能力而且运行效率也得到了显著提升. ```python import numpy as np def deform_gaussian(mean, cov_matrix, deformation_field): """ Apply a deformation field to modify the mean and covariance matrix of a Gaussian. Args: mean (np.ndarray): Original mean vector of shape (n,) cov_matrix (np.ndarray): Covariance matrix of shape (n,n) deformation_field (function): Function that takes position vectors and returns modified ones Returns: tuple: Modified mean and covariance after applying deformation """ new_mean = deformation_field(mean) jacobian = compute_jacobian(deformation_field, mean) # Jacobian at 'mean' new_cov = jacobian @ cov_matrix @ jacobian.T return new_mean, new_cov def compute_jacobian(func, point): """Numerically approximate the Jacobian.""" epsilon = 1e-6 dims = len(point) jac = np.zeros((dims,dims)) for i in range(dims): delta = np.zeros_like(point);delta[i]=epsilon f_plus=func(point+delta) f_minus=func(point-delta) jac[:,i]=(f_plus-f_minus)/(2*epsilon) return jac ``` 上述代码片段展示了如何应用给定的变形字段去改变一个标准正态随机变量的行为特性——即其均值位置以及协方差矩阵形式都会受到影响而发生变化。 --- ### SC-GS: Sparse-Controlled Gaussian Splatting 的补充说明 除了《Deformable 3D Gaussians...》之外,《SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes》同样值得关注。它进一步探讨了通过引入稀疏约束条件改善编辑友好型动态场景的表现力问题[^2]。这种方法允许用户更方便地修改已构建好的虚拟世界内容而不破坏整体一致性。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值