GaussTR

最新推荐文章于 2025-12-10 17:26:34 发布

原创最新推荐文章于 2025-12-10 17:26:34 发布 · 713 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #pytorch #python #人工智能 #计算机视觉

GaussTR

GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding

Abstract

本文提出了一种新的基于高斯的Transformer框架，通过高斯表示将稀疏3D建模与基础模型对齐统一起来，以提高3D空间理解.GaussTR以前馈方式预测高斯稀疏集来表示3D场景。通过将高斯分布溅射到2D视图中，并将呈现的特征与基础图像大模型对齐，进而可实现开放词集的occ预测。

Introduction

对于3D场景的理解，是通用人工智能通往更高智能的必经之路。当前的一些视觉基础大模型已经炉火纯青，但从2D到3D的扩展仍存在gap。
3DOcc预测旨在通过预测体素占用和语义来生成全面的空间认知，形成空间理解的基本任务。当时之前的一些方案多依赖于3D监督。此外，密集的voxel表征也会带来额外的计算开销，并且由于全局细粒度的voxel描述，造成高级语义的上下文理解困难。受到RenderOcc等自监督算法和3D高斯泼溅模型的启发，本文提出了一种新的基于高斯分布的Transformer框架，将3D场景表示为高斯分布，并利用基础模型对齐统一。GaussTR将场景进行离散建模，解构为高斯模型集合，从而通过一系列Transformer进行预测。GaussTR为每个高斯核聚合多视图的视觉基础模型特征，进而在高斯核queries中进去全局自注意力计算实现3D建模。
利用高斯溅射在2D和3D模态上的一致性，GaussTR将高斯图形渲染回2D视图，并强制与基础模型进行特征对齐。因此，GaussTR学习具有广泛视觉先验的通用3D表示，通过与目标类别的相似性测量来实现开放词汇占用预测，而无需显式注释。
在这里插入图片描述

主要贡献点

提出了基于离散高斯的场景表征
利用与视觉基础模型的对齐实现自监督训练
达到了SOTA的zero-shot表现

Related Works

3D Gaussian Splatting
3D高斯泼溅模型已经被用于3D场景重建，通过可学习的高斯核进行建模，相比密集重建方法(如NeRF)，效率更高。具体来说，3D-GS通过基于反向梯度的迭代优化，动态调整高斯属性，包括密度和协方差。
与传统3D GS为每个场景独立优化高斯参数相比，pixelNeRF以前馈方式预测图像输入条件下的高斯参数，从而能够跨多个场景学习结构先验。PixelSplat通过从预测的概率分布中采样高斯，开创了可推广的3D GS。后来的研究通常使用预训练的深度估计网络，并以逐像素的方式预测高斯特性。GeoLRM引入了用于场景建模的体积占用网格，并从中生成高斯分布。

Methodologies

在这里插入图片描述

Feedforward Gaussian Splatting

GaussTR首先利用视觉基础大模型提取多视图的图像特征和深度特征。
GaussTR的核心是可学习的高斯queries $qG∈RN×Cq_G \in \mathbb{R}^{N \times C}$ ,以及初始化时对应的像素位置 $μ2D∈RN×2\mu_{2D} \in \mathbb{R}^{N \times 2}$ ,其中N表示高斯queries的数量，C表示embedding维度。
每个高斯G都通过一组属性参数化，包括三维中心点坐标 $μ3D∈R3\mu_{3D} \in \mathbb{R}^{3}$ , 三维协方差矩阵 $Σ\Sigma$ ,可分解为缩放因子 $S∈R3S\in \mathbb{R}^{3}$ 和旋转四元数 $\in \mathbb{R}^{4}$ , 密度项 $α∈[0,1]\alpha \in [0,1]$ , 特征向量 $fG∈RCf_G \in \mathbb{R}^{C}$ 替换常规GS中的球面谐波(SH), 即可以表达为：
${\mu_{3D}, S, R, \alpha, f_G}$
3D位置 $μ3D\mu_{3D}$ 可以通过预测的深度 $D$ 和相关变换矩阵得到：
$μ3d=Tc2w(μ2D,dG,K,E)=E−1K−1(dG⋅μ2D)\mu_{3d} = \mathcal{T}_{c2w}(\mu_{2D}, d_G, K, E) = E^{-1}K^{-1}(d_G \cdot \mu_{2D} )$
通过后续的transformer解码层，GaussTR通过DA将多尺度2D特征进行聚合：
$qG=DeformAttn(qG,μ2D,F)q_G = \text{DeformAttn}(q_G, \mu_{2D}, F)$

高斯queries的SA可以描述为：
$qG=SelfAttn(qG+PE(μ3D),qG+PE(μ3D),qG)q_G = \text{SelfAttn}(q_G+\text{PE}(\mu_{3D}),q_G+\text{PE}(\mu_{3D}), q_G)$
最后，通过MLP将高斯queries映射为预测结果：
$\{ \Delta_{\mu 3D}, \Delta R, \Delta S, \alpha, f_G \} = \text{MLP}(q_G)$

VFM-Aligned Self-Supervised Learning

通过高斯泼溅的方式，将2D投影与VFM结果进行对齐，从而实现自监督学习。高斯分布可以表示为：
$e^{-\frac{1}{2}(x)^\text{T} \sum ^{-1} (x)}$

同时，为了优化特征泼溅的效率，采用PAC来降低高斯特征 $f_G$ 的维度，具体流程可以表示为：
$Vk=PAC(F)V_k = \text{PAC}(F)$
$F′=FVkTF^{'} = FV_k^{\text{T}}$
$fG′=fGVkTf_G^{'} = f_GV_k^{\text{T}}$