feature 3dgs and gaussion grouping-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_57031183/article/details/146536614

Feature 3DGS

把SAM能做的事提升到了3维层面。

在这里插入图片描述

渲染模型

本质上就是通过可微分体渲染将大型 2D 教师模型的特征提炼到小型 3D 显式场景表示学生模型。

$Fs=∑i∈NfiαiTiC=\sum\limits_{i\in\mathcal N}c_i\alpha_iT_i,\ F_s=\sum\limits_{i\in \mathcal N}f_i\alpha_iT_i$

$Ti=∏j=1i−1(1−αj)T_i=\prod^{i-1}_{j=1}(1-\alpha_j)$ 表示透射率， $N\mathcal N$ 表示投影到对应像素排序后的高斯集合， $c_i$ 表示颜色， $αi\alpha_i$ 表示不透明度， $f_i$ 表示高斯的语义特征。

由上述公式可见，渲染语义特征和RGB图像存在共享的参数，在渲染阶段，采用联合优化策略，同时渲染语义特征和光场RGB图像。由于图像和特征图之间的共享属性，独立渲染它们可能会出现问题（这被称为扭曲级散度 [43]）。（感觉在扯淡……）

损失函数

$L=Lrgb+γLf\mathcal L=\mathcal L_{rgb}+\gamma\mathcal L_f$

$Lrgb=(1−λ)L1(I,I^)+λLD−SSIM(I,I^)\mathcal L_{rgb}=(1-\lambda)\mathcal L_1(I,\hat I)+\lambda\mathcal L_{D-SSIM}(I,\hat I)$

$Lf=∣∣Ft(I)−Fs(I^)∣∣1\mathcal L_f=||F_t(I)-F_s(\hat I)||_1$

$F_t(I)$ 是从2D基础模型（SAM、CLIP-Lseg）编码图像得到的潜空间嵌入， $Fs(I^)F_s(\hat I)$ 是渲染得到的特征嵌入。

学习特征场可能会对辐射场产生不利影响。（但在semantic-nerf论文中提到过语义特征的学习并不影响RGB图像渲染，可能还可以互相促进，直观感受上这两者不应该是互相干扰产生不利影响的互动，语义信息和RGB外观信息应该是可以相互补充的，文中也没有具体实验来说明……）

加速模块

优化语义特征是在最小化渲染的语义特征图 $Fs(I^)∈RH×W×NF_s(\hat I)\in\mathbb R^{H\times W\times N}$ 和教师模型输出的语义特征图 $Ft(I)∈RH×W×MF_t(I)\in \mathbb R^{H\times W\times M}$ 的差异，理想情况是 $N = M$ 。实际情况中， $M$ 维度很高（LSeg： $M = 512$ ，SAM： $M = 256$ ）， $N$ 采用相同维度会导致直接渲染高维特征图变慢。为此，该论文引入一个加速模块，该模块由一个轻量级卷积解码器组成，该解码器用大小为 1×1 的卷积核对特征通道进行上采样。

基于提示（prompt）的应用

查询prompt和对应高斯的语义特征相似度计算（查询特征 $q(τ)q(\tau)$ 和语义特征 $f (x)$ 的余弦相似度）

$s=f(x)⋅q(τ)∣∣f(x)∣∣∣∣q(τ)∣∣s=\frac{f(x)\cdot q(\tau)}{||f(x)||||q(\tau)||}$

通过比较prompt和高斯语义特征的相似度选择特定的高斯进行各种应用操作（例如更新颜色、不透明度）。

语义分割掩码计算

例如LSeg图像编码器得到的特征图大小为 $360×480×512WHC360\times480\times 512^{WHC}$ ，渲染得到的语义特征图大小 $512×360×128512\times 360\times 128$ ，通过加速模块为 $512×360×512512\times360\times512$ ，在reshape为 $360×480×512360\times 480\times512$ 。和文本prompt（大小为 $C×512C\times512$ ）计算相似度矩阵。

Gaussian Grouping

在这里插入图片描述

构建了一个富有表现力的 3D 场景表示，它不仅对外观和几何形状进行建模，而且还捕获场景的每个实例和事物身份。

工作流

（1）用 SAM 为每个视图（以所有模式everything mode）自动生成掩码来准备输入。

（2）然后，为了获得跨训练视图的一致掩码 ID，采用一个通用的时间传播模型 [7] （Tracking Anything with Decoupled Video Segmentation，分割视频任务，能够把不同帧之间的分割掩码关联）来关联掩码标签并生成连贯的多视图分割。

（3）渲染高斯的所有属性。得到2维渲染图像的身份编码后 $H×W×CH\times W\times C$ 通过一个全连接层把身份编码维度投影到 $K$ 个类别的维度，然后通过softmax得到每个像素的身份类别， $softmax(f(E_{id}))$ 。采用标准的交叉熵损失 $L2d\mathcal L_{2d}$ 进行K个类别分类。

损失函数

3D正则损失：强制前k个最近3D高斯的身份编码在其特征距离上接近

$L3d=1m∑j=1mDkl(P∣∣Q)=1mk∑j=1m∑i=1kF(ej)log(F(ej)F(ei′))\mathcal L_{3d}=\frac{1}{m}\sum\limits^m_{j=1}D_{kl}(P||Q)=\frac{1}{mk}\sum\limits^m_{j=1}\sum\limits^k_{i=1}F(e_j)log(\frac{F(e_j)}{F(e'_i)})$

利用KL散度迫使采样的m个高斯的编码和这m个高斯中每个高斯最近的k个高斯的编码接近。采样的高斯编码 $e_j$ 与最近的K个高斯中的编码 $e_i$ 越接近，KL散度越小。

总损失：

$Lrender=Lrec+Lid=Lrec+λ2dL2d+λ3dL3d\mathcal L_{render}=\mathcal L_{rec}+\mathcal L_{id}=\mathcal L_{rec}+\lambda_{2d}\mathcal L_{2d}+\lambda_{3d}\mathcal L_{3d}$