Mip-Splatting阅读
问题分析
三维高斯投影到2维平面后,增加了一步扩张操作(dilation),这是为了避免在屏幕空间中投影的2D高斯太小的退化情况,即小于像素,投影的2D高斯膨胀如下:
G k 2 D ( x ) = e − 1 2 ( x − p k ) T ( ∑ k 2 D + s I ) − 1 ( x − p k ) \mathcal G_k^{2D}(x)=e^{-\frac{1}{2}(x-p_k)^T(\sum^{2D}_k+sI)^{-1}(x-p_k)} Gk2D(x)=e−21(x−pk)T(∑k2D+sI)−1(x−pk)
I I I是单位矩阵, s s s是一个标量膨胀超参数。
问题1(Erosion artifacts,侵蚀伪影和高频伪影,zoom-in后产生)
(a)是正常的表示,对投影的高斯扩大一个像素,但(a)中投影后的情况和(b)中投影后的情况基本一致。(b)表示一个退化的3D高斯(由Dirac函数 δ \delta δ表示)。那么此时在表示高频信息时(现实场景中的大量细节),扩张的2D高斯会变小,对已经很小的高斯系统性地低估其尺度。分辨率保持不变时(采样率),不会影响到渲染结果。但对图像进行放大,采样率变大,分辨率增加,相机移近时,出现很多细小的高斯,产生侵蚀伪影。这是因为扩展的 2D 高斯在屏幕空间中变得更小。
在这种情况下,渲染图像表现出高频伪影,渲染对象结构比实际看起来更薄,如图 1 (d) 所示。
问题2(dilation artifacts,扩张伪影和过亮,zoom-out后产生)
3D对象投影所覆盖的区域小于像素,但扩张的高斯没有被衰减,比物理到达像素的光积累更多。这导致了亮度和膨胀伪影的增加,这强烈地降低了自行车车轮辐条的外观。辐条变粗,细小物体扩张变粗。
问题3
如果不进行dilation操作,由于缺乏抗锯齿,降低采样率也会导致混叠效应。
对于EWA中的低通滤波操作,其同样面对不同分辨率的图像产生混叠效应。
论文方法
(1)引入3D平滑滤波器,将3D表示的频率限制在训练图像确定的最大采样率的一半以下,在放大时消除高频伪影。
(2)用二维Mip滤波器替换二维屏幕空间膨胀,该滤波器近似于物理成像过程固有的盒滤波器,有效地缓解了混叠和膨胀问题。
实现了在单一采样率下进行训练,但可以渲染不同采样率下的图像。
3D平滑滤波器(解决zoom-in放大出现的高频伪影)
目标是在优化过程中约束 3D 表示的最大频率。采样率与图像分辨率、相机焦距和场景与相机的距离有关。
多视图频率界限
根据针孔相机模型, X ′ = f Z c X c , Y ′ = f Z c Y c X'=\frac{f}{Z_c}X_c,Y'=\frac{f}{Z_c}Y_c X′=ZcfXc,Y′=ZcfYc
所以图像平面上采样间隔为1个像素, d X ′ = f Z c d X c , d X ′ = 1 p x , d X c = Z c f dX'=\frac{f}{Z_c}dX_c,dX'=1px,dX_c=\frac{Z_c}{f} dX′=ZcfdXc,dX′=1px,dXc=fZc,所以得到了公式(6),三维空间中的采样间隔为 T ^ = 1 v ^ = d f \hat T=\frac{1}{\hat v}=\frac{d}{f} T^=v^1=fd。 v ^ \hat v v^表示采样频率, d d d表示深度。
根据奈奎斯特采样定理,重建的3D高斯的频率应不超过采样频率的一半 v ^ 2 = f 2 d \frac{\hat v}{2}=\frac{f}{2d} 2v^=2df。所以,尺寸大小小于2倍采样间隔 2 T ^ 2\hat T 2T^的高斯会导致混叠伪影 。
使用高斯的均值(位置) p k p_k pk近似深度 d d d,对于每个高斯的最大采样率表示如下:
v ^ k = m a x ( { 1 n ( p k ) ⋅ f n d n } n = 1 N ) \hat v_k=max(\{\mathbb 1_n(p_k)\cdot\frac{f_n}{d_n}\}^N_{n=1}) v^k=max({1n(pk)⋅dnfn}n=1N)
N N N是总的训练图像数量, 1 n ( p ) \mathbb 1_n(p) 1n(p)是示性函数,如果高斯中心 p k p_k pk落在第 n n n个相机(并非表示相机变化了, d d d或者 f f f任意一个变化了都表示一个相机,此处实际上和图像数量一致)的视图截锥内,则为真。
3D平滑
对每个3D高斯进行低通滤波,进行3D平滑,过滤高频3D高斯表示。两个高斯卷积等于协方差之和。
G k ( x ) r e g = ( G k ∗ G l o w ) ( x ) = ∣ Σ k ∣ ∣ Σ k + s v ^ k 2 ⋅ I ∣ e − 1 2 ( x − p k ) T ( Σ k + s v ^ k 2 ⋅ I ) ( x − p k ) \mathcal G_k(x)_{reg}=(\mathcal G_k*\mathcal G_{low})(x)\\=\sqrt{\frac{|\Sigma_k|}{|\Sigma_k+\frac{s}{\hat v^2_k\cdot I}|}}\ e^{-\frac{1}{2}(x-p_k)^T(\Sigma_k+\frac{s}{\hat v^2_k}\cdot I)(x-p_k)} Gk(x)reg=(Gk∗Glow)(x)=∣Σk+v^k2⋅Is∣∣Σk∣ e−21(x−pk)T(Σk+v^k2s⋅I)(x−pk)
s s s是控制滤波器大小的标量超参数。
2D Mip滤波器
进行2维高斯滤波
G k 2 D ( x ) m i p = ∣ Σ k 2 D ∣ ∣ Σ k 2 D + s I ∣ e − 1 2 ( x − p k ) T ( Σ k 2 D + s I ) ( x − p k ) \mathcal G^{2D}_k(x)_{mip}=\sqrt{\frac{|\Sigma_k^{2D}|}{|\Sigma_k^{2D}+sI|}}\ e^{-\frac{1}{2}(x-p_k)^T(\Sigma_k^{2D}+sI)(x-p_k)} Gk2D(x)mip=∣Σk2D+sI∣∣Σk2D∣ e−21(x−pk)T(Σk2D+sI)(x−pk)
2D box filter指的啥?
gpt回答:2D Box Filter 是图像处理或计算机图形学中一种最简单的低通滤波方法,又称“均值滤波”(mean filter)。“对该像素邻域做均匀加权求和”,从而起到平滑或模糊的作用。由于它对邻域内的所有像素都采用相同的权重(即一个“box”或“矩形”形状),所以被称为 Box Filter。
匀加权求和”,从而起到平滑或模糊的作用。由于它对邻域内的所有像素都采用相同的权重(即一个“box”或“矩形”形状),所以被称为 Box Filter。
Yu Z, Chen A, Huang B, et al. Mip-splatting: Alias-free 3d gaussian splatting[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024: 19447-19456.