【论文笔记】pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

最新推荐文章于 2025-06-13 17:24:30 发布

byzy

最新推荐文章于 2025-06-13 17:24:30 发布

阅读量825

点赞数 11

分类专栏： 3D Gaussian Splatting（3D高斯溅射）文章标签：论文阅读深度学习计算机视觉

本文链接：https://blog.youkuaiyun.com/weixin_45657478/article/details/145828295

版权

3D Gaussian Splatting（3D高斯溅射）专栏收录该内容

23 篇文章

订阅专栏

原文链接：https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf

简介：本文提出pixelSplat，一种从成对图像中重建由3D高斯参数化的辐射场的前馈网络。该方法渲染和3D重建的速度快，且节省空间。为克服稀疏且局部支持固有的局部极小值，本文预测密集概率分布，并从中采样3D高斯均值。通过重参数化技巧，使采样过程可微，从而允许梯度回传到高斯溅射表达。实验表明本文方法能重建可编辑的3D辐射场并加速渲染，且性能可以超越sota的光场Transformer。

0. 背景：3D高斯溅射

3DGS将3D场景参数化为3D高斯的集合 $\{g_k=(\mu_k,\Sigma_k,\alpha_k,S_k)\}_k^K$ ，其中 $\mu_k,\Sigma_k,\alpha_k,S_k$ 分别为均值、协方差、不透明度和球面谐波系数。与密集表达如神经场或体素网格，3D高斯可使用栅格化操作进行快速而不占空间的渲染。

局部极小：3DGS的拟合与高斯混合模型的拟合密切相关，即需要寻找一组高斯的参数使样本的可能性最大化。3DGS的高斯被初始化到随机位置，并在训练过程中移动到最终位置。但高斯的局部支持性使得在距离正确位置超过几个标准差时，梯度会消失；即便离正确位置很近，也需要找到一条损失值随着距离减小而单调降低的移动路径。在可微渲染中，因为高斯可能会途经空空间并遮挡背景特征（导致损失增大），故3DGS需要依赖不可微的“自适应密度控制”（来避免局部极小）；但在可泛化情况下，3D高斯由必须接收梯度的神经网络预测（操作必须可微）。因此本文提出不受局部极小影响的高斯可微参数化。

1. 解决尺度模糊性

理想的新视图合成数据集会包含度量的相机姿态。每个场景 $C_i^m$ 会包含一组元组 $C_i^m=\{(I_j,T_j^m)\}_j$ ，其中 $I_j$ 为图像， $T_j^m$ 为其姿态。但实际中，相机的姿态是按比例放缩的（由SfM计算），从而导致不同的场景 $C_i$ 会按照不同的随机尺度 $s_i$ 放缩。给定场景 $C_i=\{(I_j,s_iT_j)\}_j$ ，从单一图像恢复 $s_i$ 是不可能的，即重建网络不可能预测与姿态匹配的深度，如图所示。
在这里插入图片描述
本文首先将每个视图分别编码为特征 $F,\tilde F$ 。令 $u$ 为 $I$ 中的像素坐标， $\ell$ 为 $\tilde I$ 中的对极线（ $u$ 的相机射线在 $\tilde I$ 中的投影），沿 $\ell$ 采样像素 $\{\tilde u_l\}\sim \tilde I$ 。对每个样本 $\tilde u_l$ ，通过 $u$ 和 $\tilde u_l$ 的三角测量，计算到 $I$ 相机中心的距离 $\tilde d_{\tilde u_l}$ 。随后，计算对极注意力的查询、键与值：
$s=\tilde F[\tilde u_l]\oplus\gamma(\tilde d_{\tilde u_l})\\ q=Q\cdot F[u],\;k_l=K\cdot s,\;v_l=V\cdot s$

其中 $\oplus$ 为拼接（concat）， $\gamma(\cdot)$ 为位置编码。按下式更新 $F [u]$ ：
$F[u]+=\mathtt{Att}(q,\{k_l\},\{v_l\})$

更新后的 $F [u]$ 包含了深度位置编码的加权和，且正确对应的权重最大。因此， $F [u]$ 编码了与缩放后相机姿态对应的缩放深度。随后，使用自注意力使缩放深度估计传播到无对极对应的区域：
$F[u]+=\mathtt{SelfAtt}(F)$

注意该机制也可扩展到多视图。

2. 高斯参数预测

在这里插入图片描述
本步骤使用尺度感知的特征图预测高斯。由于图像像素采样了3D场景中的表面点，本文使用像素对齐的高斯：对坐标为 $u$ 的像素，以图像特征 $F [u]$ 为输入，预测 $M$ 个高斯。其中，最重要的问题是如何参数化位置 $\mu$ 。本文方法的预测流程如图所示。

基准方案：预测 $\mu$ 的点估计。直接回归高斯中心 $\mu$ 即使用神经网络 $g$ 预测高斯中心到相机中心 $o$ 的距离 $d_u$ ，并反投影到3D：
$\mu=o+d_ud,\;d_u=g(F[u]),\;d=TK^{-1}[u,1]^T$

其中 $d$ 为相机射线方向， $K, T$ 为相机内外参。直接优化高斯参数会陷入局部极小，因此本文提出一种可微替代。

本文提出的方案：预测 $\mu$ 的概率密度。本文预测沿射线 $u$ 的高斯距离相机中心为 $d$ 的概率分布，定义深度范围 $d_{near},d_{far}]$ ，将深度离散化为 $Z$ 个区间，得到向量 $b\in\mathbb R^Z$ ，其中第 $z$ 个元素（第 $z$ 个区间对应的深度值）为
$b_z=((1-\frac zZ)(\frac1{d_{near}}-\frac1{d_{far}})+\frac1{d_{far}})^{-1}$

注意此处的深度区间并非均匀划分的。

随后，定义离散概率分布 $p_\phi(z)$ ，其元素 $\phi_z$ 为 $b_z$ 内存在表面的概率。概率 $\phi$ 由全连接网络 $f$ 根据 $F [u]$ 预测，并通过softmax归一化。进一步，预测偏移量 $\delta\in[0,1]^Z$ 调整高斯：
$\mu=o+(b_z+\delta_z)d_u,\;z\sim p_\phi(z),\;(\phi,\delta)=f(F[u])$

前向过程中，高斯会从预测的分布中采样。

通过设置 $\alpha=\phi_z$ 使采样可微。由于需要将梯度反传到概率 $\phi$ （即计算 $\nabla_\phi\mu$ ），但 $z\sim p_\phi(z)$ 的采样过程是不可微的，本文通过重参数化技巧，将不透明度 $\alpha$ 设置为对应的采样概率，即 $\alpha=\phi_z$ 。因此，反向传播时对损失 $L$ 的梯度 $\nabla_\phi L=\nabla_\alpha L$ 。