摘要:
最近,辐射场方法彻底改变了使用多张照片或视频捕获的场景的新视角合成技术。但是,要达到高视觉质量,仍然需要训练和渲染成本很高的神经网络。而最近一些速度更快的方法则不可避免地在速度和质量之间做出权衡。对于完整场景(而不仅仅是孤立的物体)以及1080p分辨率的渲染,目前还没有方法能够实现实时显示速率。
我们引入了三个关键部分,使我们能够在保持竞争力的训练时间的同时,实现最先进的视觉质量,并且重要的是,允许在1080p分辨率下进行高质量的实时(每秒≥30帧)新视角合成。首先,从相机校准过程中产生的稀疏点开始,我们使用3D高斯来表示场景,这种表示方法在优化场景时保留了连续体积辐射场的理想特性,同时避免了在空白空间中进行不必要的计算;其次,我们对3D高斯进行交错优化和密度控制,特别是优化各向异性协方差,以实现对场景的准确表示;第三,我们开发了一个快速的可见性感知渲染算法,支持各向异性溅射,既加快了训练速度,也允许实时渲染。我们在几个已建立的数据集上展示了最先进的视觉质量和实时渲染效果。
1 引言
网格和点是最常见的3D场景表示方法,因为它们很明确,并且非常适合快速的GPU/CUDA基础的光栅化处理。相比之下,最近流行的神经辐射场(NeRF)方法则基于连续的场景表示,通常通过体积光线行进技术优化一个多层感知器(MLP),用于捕获场景的新视角合成。同样,到目前为止最有效的辐射场解决方案也通过插值存储在体素(例如Fridovich-Keil和Yu等人在2022年的研究)或哈希(例如Müller等人在2022年的研究)网格或点(例如Xu等人在2022年的研究)中的值来构建连续表示。
虽然这些方法的连续性有助于优化,但渲染所需的随机采样成本很高,可能会导致噪声。我们引入了一种新的方法,结合了两种方法的优点:我们的3D高斯表示允许在优化时达到最先进的视觉质量,并且训练时间具有竞争力,而我们基于瓦片的溅射解决方案确保了在多个之前发布的数据集上,1080p分辨率的实时渲染能够达到最先进的质量(见图1)。这些数据集包括Barron等人在2022年、Hedman等人在2018年、Knapitsch等人在2017年的研究。
我们的目标是让使用多张照片捕获的场景能够进行实时渲染,并创建出优化时间尽可能快的表示,以赶上以往最高效方法的水平。最近的方法虽然实现了快速训练(例如Fridovich-Keil和Yu等人在2022年的研究,以及Müller等人在2022年的研究),但它们在视觉质量上难以达到当前最先进的NeRF方法(即Mip-NeRF360,Barron等人在2022年的研究)的水平,后者需要长达48小时的训练时间。虽然快速但质量较低的辐射场方法能够根据不同场景实现交互式渲染时间(每秒10-15帧),但它们在高分辨率下的实时渲染方面还是不够的。
我们的解决方案建立在三个主要组成部分上。首先,我们引入了3D高斯作为灵活且富有表现力的场景表示方法。我们使用与之前的NeRF类似方法相同的输入,即通过运动恢复结构(Structure-from-Motion,简称SfM)校准的相机,并使用SfM过程中免费产生的稀疏点云初始化一组3D高斯。大多数基于点的解决方案都需要多视图立体(Multi-View Stereo,简称MVS)数据作为支撑,而我们仅仅使用SfM点作为输入就能获得高质量的结果。请注意,对于NeRF合成数据集,即使采用随机初始化,我们的方法也能实现高质量渲染。3D高斯的渲染效果非常好,这是因为它们是可微分的体积表示。并且我们可以通过将3D高斯球投影到2D平面并应用标准的α混合来高效地实现光栅化,并使用与NeRF等效的图像形成模型。
我们方法的第二个组成部分是优化3D高斯的属性,即优化3D位置、不透明度α、各向异性协方差和球谐(Spherical Harmonics,简称SH)系数。属性的优化将与高斯的自适应密度控制步骤交错进行,即在优化过程中动态地添加或移除3D高斯。经过优化后,我们可以得到一个相当紧凑、非结构化且精确的场景表示(所有测试场景的高斯数量在1-500万之间)。
我们方法的第三个也是最后一个部分是我们的实时渲染解决方案,它使用快速的GPU排序算法,并受到基于瓦片的光栅化启发,遵循最近的工作。然而,由于我们的3D高斯表示,我们可以执行各向异性溅射,不过溅射的最终形态需要遵循可见性排序的结果(即在多个高斯重叠的区域,可见性高的高斯应覆盖在可见性低的高斯之上)。我们还通过网络跟踪所需数量的排序溅射的遍历来实现快速准确的反向传递。
总结来说,我们做出了以下贡献:
* 引入了高质量、非结构化表示的各向异性3D高斯作为辐射场。
* 提出了一种3D高斯的优化方法,属性优化与自适应密度控制交错进行,实现了场景的高质量的表示。
* 提出了一种快速、可微分的GPU渲染方法,具有可见性感知能力,允许各向异性溅射和快速反向传播,以实现高质量的新视角合成。
由在公开数据集上的实验结果表明,我们可以通过多视角图像优化我们的3D高斯,并实现与之前最佳的隐式辐射场方法相等或更好的质量。我们还可以实现与最快方法相似的训练速度和质量。重要的是,我们为新视角合成提供了首个具有高质量的实时渲染方法。
2 相关工作
我们首先简要回顾了传统的重建技术,然后讨论了基于点的渲染和辐射场的工作,并讨论了它们的相似性;辐射场是一个广泛的领域,因此我们只关注直接相关的工作。有关该领域的完整覆盖,请参见最近的优秀综述[塔瓦里等人,2022年;谢等人&#x