【SurroundOcc】《SurroundOcc:Multi-Camera 3D Occupancy Prediction for Autonomous Driving》

在这里插入图片描述

ICCV-2023

code:https://github.com/weiyithu/SurroundOcc



1、Background and Motivation

在这里插入图片描述

自动驾驶中的3D场景理解:在自动驾驶系统中,理解周围环境的3D几何结构是基本且关键的任务。传统的LiDAR传感器虽然能够直接获取几何信息,但存在成本高、扫描点稀疏等局限性,限制了其进一步应用。

视觉为中心的自动驾驶:近年来,以视觉为中心的自动驾驶方法因其低成本和丰富的语义信息而受到广泛关注。传统方法多依赖3D物体检测,但难以描述任意形状(arbitrary shapes)和无限类别(infinite classes)的真实世界物体。

多摄像头3D占用预测的需求:与3D目标检测相比,3D占用预测能够描述任意形状和无限类别的真实世界物体,为下游感知任务(如运动预测和路径规划)提供更全面的场景理解。

为了解决上述问题,本文提出了SurroundOcc方法,旨在利用多摄像头图像预测周围3D场景的密集占用情况。

该方法通过提取多尺度特征、应用2D-3D空间注意力机制、逐步上采样体积特征并施加多级监督,实现了密集且准确的3D占用预测。同时,设计了一个管道来生成密集的占用标签,而无需昂贵的占用标注。

2、Related Work

  • Voxel-based Scene Representation(describes each voxel by a vector feature)
    lidar segmentation、3D semantic scene completion(SCC)、3D occupancy prediction
    MonoScene、TPVFormer
  • 3D Scene Reconstruction
    SurroundDepth、SurfaceNet、Atlas、NeuralRecon、TransformerFusion
    most of these 3D scene reconstruction methods are designed for indoor scenes
  • Vision-based 3D Perception
    Depth-based methods、implicitly learn 3D features without producing explicit depth maps(eg BEV feature、OCC feature)
    BEVFormer

3、Advantages / Contributions

一部分是如何利用多帧的 lidar 点云构建稠密 occupancy 数据集
devise a pipeline to generate dense occupancy ground truth for training

另一部分是如何设计 occupancy 预测的网络

4、Method

在这里插入图片描述

perform 2D-3D spatial attention(核心,2D to 3D transformer)

upsample and combine multi-scale volume features.

decayed weighted loss


backbone for nuscene datasets

Wang T, Zhu X, Pang J, et al. Fcos3d: Fully convolutional one-stage monocular 3d object detection[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 913-922.
在这里插入图片描述

backone for SemanticKITTI datasets

EfficientNetB7

输入

  • 环视图
  • img_metas,比较重要的是相机内外参 lidar2img ,和总线信息 can_bus
    在这里插入图片描述

输出

在这里插入图片描述

grid mask 数据增强

在这里插入图片描述

4.1、2D-3D Spatial Attention

本文的核心模块之一,代码比较复杂,借鉴的是

### 关于高斯世界模型用于流式3D占用预测的研究 在研究领域中,高斯世界模型(Gaussian World Model, GWM)被广泛应用于表示复杂的三维环境。对于流式3D占用预测的任务而言,该方法通过利用动态变化场景中的稀疏性和局部性来实现高效建模。 #### 高斯世界模型概述 高斯世界模型采用一系列加权的各向异性高斯分布来近似复杂物体表面及其周围的空间结构[^1]。这些分布在空间上定义了一个概率场,其中每个位置处的概率反映了存在实体的可能性大小。这种方法不仅能够捕捉到精细几何特征,而且支持高效的渲染操作以及实时更新机制。 #### 流式处理框架设计 为了适应不断变化的真实世界条件并保持较低延迟,在线学习成为构建此类系统的必要组成部分之一。具体来说: - **增量训练**:当新数据到来时,仅需调整受影响部分对应的参数而无需重新计算整个模型; - **自适应分辨率管理**:根据不同区域的重要性自动调节细节程度; - **分布式存储与通信协议**:确保大规模环境下多节点间协作顺畅无阻塞。 ```python class GaussianWorldModel: def __init__(self): self.gaussians = [] def add_gaussian(self, mean, covar, weight): gaussian = {'mean': mean, 'covariance': covar, 'weight': weight} self.gaussians.append(gaussian) def predict_occupancy(self, point_cloud): occupancy_probabilities = [] for p in point_cloud: prob_sum = sum([g['weight'] * multivariate_normal.pdf(p, g['mean'], g['covariance']) for g in self.gaussians]) occupancy_probabilities.append(prob_sum) return np.array(occupancy_probabilities) ``` 上述代码片段展示了如何初始化一个简单的`GaussianWorldModel`类,并提供了一种基于输入点云数据预测占据情况的方法。实际应用中可能还需要考虑更多因素如噪声抑制、边界效应等。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值