文章链接:https://arxiv.org/pdf/2409.12193
gitbub链接:https://github.com/florinshen/Vista3D
亮点直击
- 提出了Vista3D,一个用于揭示单张图像3D darkside 的框架,能够高效地利用2D先验生成多样的3D物体。
- 开发了一种从高斯投影到等值面3D表示的转换方法,通过可微等值面方法和解耦纹理来优化粗糙几何,实现纹理化网格的创建。
- 提出了一种角度组合方法用于扩散先验,通过约束其梯度幅度,在不牺牲3D一致性的情况下实现3D潜力的多样性。
总结速览
解决的问题
- 解决单张图像生成3D对象时多视图不一致的问题。
- 平衡3D生成中的一致性与多样性。
提出的方案
- Vista3D框架采用两阶段方法:粗略阶段通过高斯投影生成初始几何,精细阶段优化符号距离函数(SDF)。
- 使用角度组合方法进行扩散先验,通过约束梯度幅度实现多样性。
应用的技术
- 高斯投影和可微等值面方法。
- 解耦纹理技术。
- 使用两个独立隐函数捕捉物体的可见和隐藏方面。
达到的效果
- 在短短5分钟内实现快速且一致的3D生成。
- 提升生成质量,维持3D物体一致性和多样性之间的平衡。
方法
本节概述了利用2D扩散先验从单张图像生成详细3D对象的框架。如下图2所示,本文对单张图像3D darkside的探索始于通过3D高斯投影高效生成基础几何。在精细化阶段,本文设计了一种方法,将初步的3D高斯几何转换为符号距离场,随后引入可微分的等值面表示,以进一步增强几何和纹理。为了实现给定单张图像的多样化3D darkside,本文提出了一种新颖的方法来约束两个扩散先验,通过限制梯度幅度来创造多样而连贯的暗面纹理。通过这些方法,可以高效地从单张图像生成多样化且高保真的网格。
Gaussian Splatting 的粗略几何
在本文框架的粗略阶段,专注于使用Gaussian Splatting构建基础对象几何。该技术将3D场景表示为一组各向异性3D高斯。与其他神经逆渲染方法(如NeRF)相比,Gaussian Splatting在逆渲染任务中表现出显著更快的收敛速度。
一些研究,比如[3, 41, 49] 尝试将 Gaussian Splatting 引入3D生成模型。在这些方法中,发现直接使用 Gaussian Splatting 生成详细的3D对象需要优化大量的3D高斯,这需要大量时间进行优化和密集化,仍然耗时。然而, Gaussian Splatting 可以在一分钟内使用有限数量的3D高斯从单张图像快速创建粗略几何。因此,在本文的方法中,仅利用 Gaussian Splatting 进行初始粗略几何生成。
每个3D高斯由其中心位置 x ∈ R 3 x \in \mathbb{R}^3 x∈R3、缩放 r ∈ R r \in \mathbb{R} r∈R、旋转四元数 q ∈ R 4 q \in \mathbb{R}^4 q∈R4、不透明度 α ∈ R \alpha \in \mathbb{R} α∈R 和球谐函数 c ∈ R 3 c \in \mathbb{R}^3 c∈R3 来表示颜色。为了生成粗略的3D对象,本文优化一组这些高斯参数 Ψ = { Φ i } \Psi = \{\Phi_i\} Ψ={ Φi},其中 Φ i = { x i , r i , q i , α i , c i } \Phi_i = \{x_i, r_i, q_i, \alpha_i, c_i\} Φi={ xi,ri,qi,αi,ci}。为了将3D高斯渲染为2D图像,使用了高度优化的基于栅格化的实现。
为了生成给定单张图像 I ref I_{\text{ref}} Iref 的粗略几何,采用 Zero1-to-3 XL作为预训练参数 ϕ \phi ϕ 的2D扩散先验 ϵ ϕ \epsilon_\phi ϵϕ。该先验能够基于给定图像 I ref I_{\text{ref}} Iref 和相对相机姿态 Δ π \Delta\pi Δπ 对新视图进行去噪。使用SDS优化3D高斯 Ψ \Psi Ψ。
其中, π \pi π 表示围绕对象采样的相机姿态,具有固定的相机半径和视场角(FoV)。 I R π I^\pi_R IRπ 是从3D高斯集合 Ψ \Psi Ψ 中使用相机姿态 π \pi π 渲染的图像,时间步长 t t t 被退火以对添加到渲染图像中的高斯噪声 ϵ \epsilon ϵ 进行加权。除了这种基本方法之外,还引入了一种基于Top-K梯度的加密策略来加速收敛,并添加两个正则化项以增强重建的几何形状。
基于Top-K梯度的加密策略:在优化过程中,发现使用简单梯度阈值的周期性加密由于SDS的随机特性而难以调整。因此,本文采用了一种更稳健的加密策略。在每个间隔期间,仅对具有Top-K梯度的高斯点进行加密,这种简单的策略可以在各种给定图像中稳定训练。
尺度与透射率正则化:本文添加了两个正则化项,以鼓励 Gaussian Splatting在此阶段学习更详细的几何形状。引入了尺度正则化以避免过大的3D高斯,并采用另一种透射率正则化以鼓励几何学习从透明到实心。此阶段的总体损失函数可以写为:
其中, L rgb L_{\text{rgb}} Lrgb 和 L mask L_{\text{mask}} Lmask 是在渲染的参考视图和给定图像之间计算的两个均方误差(MSE)损失。 T k = ∑ i α i ∏ j = 1 i − 1 ( 1 − α j ) T_k = \sum_i \alpha_i \prod_{j=1}^{i-1} (1 - \alpha_j) Tk=∑iαi