【论文笔记】GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

最新推荐文章于 2025-06-11 17:55:15 发布

byzy

最新推荐文章于 2025-06-11 17:55:15 发布

阅读量1.5k

点赞数 24

分类专栏： 3D Gaussian Splatting（3D高斯溅射）自动驾驶中的3D占用预测文章标签：论文阅读自动驾驶深度学习计算机视觉

本文链接：https://blog.youkuaiyun.com/weixin_45657478/article/details/145691077

版权

自动驾驶中的3D占用预测同时被 2 个专栏收录

25 篇文章

订阅专栏

3D Gaussian Splatting（3D高斯溅射）

23 篇文章

订阅专栏

原文链接：https://arxiv.org/pdf/2405.17429

简介：现有的3D语义方法使用密集网格作为场景表达，忽略了占用的稀疏性和物体尺度的多样性，从而导致不平衡的资源分配。本文提出以物体为中心的表达，使用稀疏3D语义高斯表达场景，其中每个高斯表示一个感兴趣区域及其语义特征。通过注意力机制从图像聚合信息，迭代地细化3D高斯的属性，并提出高效的高斯到体素的溅射方法，聚合每个位置附近的高斯，生成3D占用预测。在NuScenes和KITTI-360数据集上的实验表明，本文方法能使用更小的空间，达到与sota相当的性能。

在这里插入图片描述

1. 以物体为中心的3D场景表达

任务：给定多视图图像 $I=\{I_i\in\mathbb R^{3\times H\times W}|i=1,\cdots,N\}$ 以及相应的内参 $K=\{K_i\in\mathbb R^{3\times3}|i=1,\cdots,N\}$ 和外参 $T=\{T_i\in\mathbb R^{4\times4}|i=1,\cdots,N\}$ ，目标是预测3D语义占用 $O\in\mathbb C^{X\times Y\times Z}$ ，其中 $\mathbb C$ 为语义类别的集合。

基于网格的方法难以适应不同场景的感兴趣区域，存在表达和计算冗余。本文提出以物体为中心的3D表达，每个单位描述一个感兴趣区，而非固定的网格。每个场景由一组3D语义高斯表达，每个高斯包括均值、协方差和语义logit。对特定3D位置的占用预测可通过该处所有语义高斯求和得到。

具体来说，本文为每个场景使用 $P$ 个3D高斯 $G=\{G_i\in\mathbb R^d|i=1,\cdots,P\}$ ，每个3D高斯由 $d=10+|\mathbb C|$ 维的向量表达，包括3维均值 $m$ 、3维尺度 $s$ ，4维旋转向量 $r$ 和 $|\mathbb C|$ 维语义logit $c$ 。则给定位置 $p = (x, y, z)$ 处的语义高斯 $g$ 的值为：
$g(p;m,s,r,c)=\exp(-\frac12(p-m)^T\Sigma^{-1}(p-m))c\\ \Sigma=RSS^TR^T,S=diag(s),R=q2r(r)$

其中 $\Sigma$ 和 $q2r(\cdot)$ 分别表示协方差矩阵和四元数转旋转矩阵的函数。 $p$ 处的占用预测结果可表达为位置 $p$ 处所有高斯之和：
$\hat o(p;G)=\sum_{i=1}^Pg_i(p;m_i,s_i,r_i,c_i)=\sum_{i=1}^P\exp(-\frac12(p-m_i)^T\Sigma_i^{-1}(p-m_i))c_i\tag{1}$

和体素表达相比，3D高斯可根据物体大小和区域复杂度自适应地分配计算和存储资源。此外，从具有显式语义的3D高斯转换到占用预测比体素方法中高维向量的解码更加简单。

2. GaussianFormer：图像到高斯

首先初始化3D高斯属性和对应的高维查询为可学习向量，然后迭代地在GaussianFormer内细化高斯属性。GaussianFormer的每个块包含自编码模块（3D高斯之间的交互）、图像交叉注意力模块（聚合视觉信息）和细化模块（修正3D高斯属性）。
在这里插入图片描述
高斯属性和查询：高斯属性 $G=\{G_i\in\mathbb R^d|i=1,\cdots,P\}$ 是物理属性，也是模型的学习目标。高斯查询 $Q=\{Q_i\in\mathbb R^m|i=1,\cdots,P\}$ 是高维特征向量，在自编码和图像交叉注意力模块中隐式地编码3D信息，并为细化模块提供修正指导。

与3DGS不同，本文方法生成的高斯数量是固定的。

自编码模块：本文将高斯视为位于其中心 $m$ 的点，并体素化点云，使用3D稀疏卷积进行自编码。

图像交叉注意力（ICA）模块：对3D高斯G，首先生成3D参考点集 $R=\{m+\Delta m_i|i=1,\cdots,R\}$ ，其中偏移量 $\Delta m$ 由高斯协方差计算，以反映高斯形状。然后使用相机内外参 $T, K$ ，将3D参考点投影到图像上，并根据图像特征的加权和更新高斯查询Q：
$ICA(R,Q,F;T,K)=\frac1N\sum_{n=1}^N\sum_{i=1}^RDA(Q,\pi(R;T,K),F_n)$

其中 $F,DA(\cdot),\pi(\cdot)$ 分别表示图像特征图、可变形注意力函数和世界坐标系到像素坐标系的变换。

细化模块：利用高斯查询指导修正高斯属性。对高斯G，首先用MLP从高斯查询 $Q = (m, s, r, c)$ 解码中间属性 $\hat G=(\hat m,\hat s,\hat r,\hat c)$ ，其中 $\hat m$ 作为残差与 $m$ 相加，而 $\hat s,\hat r,\hat c$ 则直接替换原来的 $s, r, c$ ：
$\hat G=(\hat m,\hat s,\hat r,\hat c)=MLP(Q),G_{new}=(m+\hat m,\hat s,\hat r,\hat c)$

3. 高斯到体素的溅射

根据式(1)计算占用是耗时的，因此本文仅对体素邻域内的高斯进行加权求和。
在这里插入图片描述
如图所示，首先根据均值 $m$ ，将3D高斯嵌入 $X\times Y\times Z$ 的目标体素网格，并根据尺度 $s$ 计算邻域半径。将高斯的索引和邻域内所有体素的索引 $(g, v)$ 加入列表，并根据体素索引排序：
$sort_{vox}([(g,v_{g_1}),\cdots,(g,v_{g_k})]_{g=1}^P)=[(g_{v_1},v),\cdots,(g_{v_l},v)]_{v=1}^{XYZ}$