GaussTR

GaussTR

GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding

Abstract

本文提出了一种新的基于高斯的Transformer框架,通过高斯表示将稀疏3D建模与基础模型对齐统一起来,以提高3D空间理解.GaussTR以前馈方式预测高斯稀疏集来表示3D场景。通过将高斯分布溅射到2D视图中,并将呈现的特征与基础图像大模型对齐,进而可实现开放词集的occ预测。

Introduction

对于3D场景的理解,是通用人工智能通往更高智能的必经之路。当前的一些视觉基础大模型已经炉火纯青,但从2D到3D的扩展仍存在gap。
3DOcc预测旨在通过预测体素占用和语义来生成全面的空间认知,形成空间理解的基本任务。当时之前的一些方案多依赖于3D监督。此外,密集的voxel表征也会带来额外的计算开销,并且由于全局细粒度的voxel描述,造成高级语义的上下文理解困难。受到RenderOcc等自监督算法和3D高斯泼溅模型的启发,本文提出了一种新的基于高斯分布的Transformer框架,将3D场景表示为高斯分布,并利用基础模型对齐统一。GaussTR将场景进行离散建模,解构为高斯模型集合,从而通过一系列Transformer进行预测。GaussTR为每个高斯核聚合多视图的视觉基础模型特征,进而在高斯核queries中进去全局自注意力计算实现3D建模。
利用高斯溅射在2D和3D模态上的一致性,GaussTR将高斯图形渲染回2D视图,并强制与基础模型进行特征对齐。因此,GaussTR学习具有广泛视觉先验的通用3D表示,通过与目标类别的相似性测量来实现开放词汇占用预测,而无需显式注释。
在这里插入图片描述

主要贡献点

  1. 提出了基于离散高斯的场景表征
  2. 利用与视觉基础模型的对齐实现自监督训练
  3. 达到了SOTA的zero-shot表现

Related Works

  • 3D Gaussian Splatting
    3D高斯泼溅模型已经被用于3D场景重建,通过可学习的高斯核进行建模,相比密集重建方法(如NeRF),效率更高。具体来说,3D-GS通过基于反向梯度的迭代优化,动态调整高斯属性,包括密度和协方差。
    与传统3D GS为每个场景独立优化高斯参数相比,pixelNeRF以前馈方式预测图像输入条件下的高斯参数,从而能够跨多个场景学习结构先验。PixelSplat通过从预测的概率分布中采样高斯,开创了可推广的3D GS。后来的研究通常使用预训练的深度估计网络,并以逐像素的方式预测高斯特性。GeoLRM引入了用于场景建模的体积占用网格,并从中生成高斯分布。

Methodologies

在这里插入图片描述

  • Feedforward Gaussian Splatting

GaussTR首先利用视觉基础大模型提取多视图的图像特征和深度特征。
GaussTR的核心是可学习的高斯queries qG∈RN×Cq_G \in \mathbb{R}^{N \times C}qGRN×C,以及初始化时对应的像素位置 μ2D∈RN×2\mu_{2D} \in \mathbb{R}^{N \times 2}μ2DRN×2,其中N表示高斯queries的数量,C表示embedding维度。
每个高斯G都通过一组属性参数化,包括三维中心点坐标μ3D∈R3\mu_{3D} \in \mathbb{R}^{3}μ3DR3, 三维协方差矩阵Σ\SigmaΣ,可分解为缩放因子S∈R3S\in \mathbb{R}^{3}SR3 和旋转四元数 R∈R4R \in \mathbb{R}^{4}RR4, 密度项α∈[0,1]\alpha \in [0,1]α[0,1], 特征向量fG∈RCf_G \in \mathbb{R}^{C}fGRC替换常规GS中的球面谐波(SH), 即可以表达为:
G=μ3D,S,R,α,fGG = {\mu_{3D}, S, R, \alpha, f_G} G=μ3D,S,R,α,fG
3D位置μ3D\mu_{3D}μ3D可以通过预测的深度DDD和相关变换矩阵得到:
μ3d=Tc2w(μ2D,dG,K,E)=E−1K−1(dG⋅μ2D)\mu_{3d} = \mathcal{T}_{c2w}(\mu_{2D}, d_G, K, E) = E^{-1}K^{-1}(d_G \cdot \mu_{2D} )μ3d=Tc2w(μ2D,dG,K,E)=E1K1(dGμ2D)
通过后续的transformer解码层,GaussTR通过DA将多尺度2D特征进行聚合:
qG=DeformAttn(qG,μ2D,F)q_G = \text{DeformAttn}(q_G, \mu_{2D}, F) qG=DeformAttn(qG,μ2D,F)

高斯queries的SA可以描述为:
qG=SelfAttn(qG+PE(μ3D),qG+PE(μ3D),qG)q_G = \text{SelfAttn}(q_G+\text{PE}(\mu_{3D}),q_G+\text{PE}(\mu_{3D}), q_G) qG=SelfAttn(qG+PE(μ3D),qG+PE(μ3D),qG)
最后,通过MLP将高斯queries映射为预测结果:
{Δμ3D,ΔR,ΔS,α,fG}=MLP(qG) \{ \Delta_{\mu 3D}, \Delta R, \Delta S, \alpha, f_G \} = \text{MLP}(q_G) {Δμ3D,ΔR,ΔS,α,fG}=MLP(qG)

  • VFM-Aligned Self-Supervised Learning

通过高斯泼溅的方式,将2D投影与VFM结果进行对齐,从而实现自监督学习。高斯分布可以表示为:
G(x)=e−12(x)T∑−1(x)G(x) = e^{-\frac{1}{2}(x)^\text{T} \sum ^{-1} (x)}G(x)=e21(x)T1(x)

同时,为了优化特征泼溅的效率,采用PAC来降低高斯特征fGf_GfG的维度,具体流程可以表示为:
Vk=PAC(F)V_k = \text{PAC}(F) Vk=PAC(F)
F′=FVkTF^{'} = FV_k^{\text{T}} F=FVkT
fG′=fGVkTf_G^{'} = f_GV_k^{\text{T}} fG=fGVkT

对于每个像素点的渲染,则是通过对所有高斯的加权混合计算得到的:
F^=∑i=1Nfi′αi∏j=1i−1(1−αj)\hat{F} = \sum_{i=1}^{N} f_i^{'} \alpha_i \prod _{j=1}^{i-1}(1 - \alpha_j) F^=i=1Nfiαij=1i1(1αj)

最后使用余弦相似度进行监督,深度监督则使用尺度不变对数(SILog)和L1。
此外,还可以利用SAM2进行语义一致的监督

  • Open-Vocabulary Occupancy Prediction

由于在训练阶段采用的是与VFM做特征对齐,因此,在推理阶段,可以利用clip等text编码实现开集检测。

Experiments

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值