GS-Occ3D

GS-Occ3D：纯视觉三维占据重建

原创已于 2025-11-11 15:19:41 修改 · 602 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#3d #深度学习 #人工智能

于 2025-11-10 15:59:19 首次发布

GS-Occ3D

GS-Occ3D: Scaling Vision-only Occupancy Reconstruction with Gaussian Splatting

Abstract

现阶段的OCC数据集主要基于点云生成标签，本文旨在利用纯图像生成OCC数据集，但现有的纯图像生成方案多使用mesh重建的方法，受几何完整性和后处理的影响很大，为了解决这个问题，本文提出一种基于吧茶树形式的高斯曲面模型的方法，实现高效的3D空间表征。此外，对于场景的细化处理与其他方案类似，地面主要通过重建方法得到大面积统一稳定的结果；动态目标则依据其运动状态进行捕捉和时序聚合处理。

Introduction

Goal: 纯视觉重建
在这里插入图片描述

Limitations of prior methods:

大多集中在单个物体或室内场景和简单的室外场景，但扩展到广泛的自动驾驶场景中就不work了，特别是纹理较弱，长视距高速行驶的场景；
现有的方法多依赖mesh方法，从而引入了其方法的弊端：过于光滑化的处理、碎片化的出现、空洞的重构等，从而带来了额外的后处理工作；
大多集中在静态场景重建，动态场景不work；

Related Works

Methods

在这里插入图片描述

Scalable Vision-only Geometry Reconstruction
1. 先使用SfM和地面高斯来生成稀疏点云作为初始的场景表示，并使用了分割模型进行一些必要的解耦。
2. 为了弥补几何先验的稀疏性问题，本文采用了基于八叉树的高斯表面元素，使用初始的点云作为场景骨架，以最大化利用来自与处理阶段的几何信息。这种结构在训练期间实现了分层空间划分和灵活的调整，确保了高效、准确和可扩展的几何重建。动态八叉树结构在训练过程中自适应，根据场景密度和复杂性进行扩展或收缩。每个稀疏体素可以生成多达m个高斯基元，限制在以体素为中心的小区域内。体素分辨率适应不同的八叉树级别。粗层次的特点是空间密度较低，有效地建模墙壁和道路等全局结构，而细层则捕捉植被、建筑物和物体边界等高频细节。八叉树级别K的数量由观察到的摄像机中心和输入稀疏点云之间的距离分布决定。计算如下：
  $\lfloor \log_2(\frac{d_{max}}{d_{min}})\rceil + 1$
  其中， $d_{max}$ 和 $d_{min}$ 为观察到的摄像机中心到输入稀疏点云的最长和最短距离。
3. 地面重建：假定地面与相机平行，通过xy平面投影来初始化地面的高斯表面元素。为了处理高程，使用最近的相机pose对局部地面进行拟合。再利用平面正则化进行平滑处理。
4. 动态目标重建：引入OD结果，利用运动状态进行捕捉和时序聚合处理，其中为了减轻初始姿势中的噪声，增加一个可学习的offset参数：
  $Rt′=Rt+ΔRt,tti=tt+ΔttR_t^{'} = R_t + \Delta R_t , t_t^{i} = t_t + \Delta t_t$
5. 最终的损失函数可以描述为：
  $L_{rgb} + \lambda_{geo}L_{geo} +\lambda_{obj}L_{obj} + \lambda_{road}L_{road}+ \lambda_{sky}L_{sky}$
  $L_{geo} = \lambda_s L_s + \lambda_d L_d + \lambda_n L_n$
  分别为表面点正则化、深度失真和深度法线一致性
Occupancy Labels Curation

为了解决点云稀疏性和相机遮挡的问题，本文采用了以帧为单元，以及帧聚合的方法来定义纯视觉点云的感知范围，并增加点云密度，尤其是对于观测不完整的动态目标。采用射线传播的方式来解决遮挡问题。
1. 以帧为单元划分：与扫描点云不同的是，重建点云不存在对应的传感器来源，因此本文定义了一个以相机为中心的感知范围，在范围内进行均匀采样以形成单扫描点云，并确保点的数量与真实雷达扫描的数量一致。
2. 帧聚合：对于动态物体，将同一目标的点云聚合到一起，以增加点云的密度。而对于静态目标，则没有必要进行聚合。
3. 体素化：利用射线传播的方式来解决遮挡问题，为被照射的部分均被认为是未观测的。

Experiments

在这里插入图片描述