
ICCV-2023
code:https://github.com/weiyithu/SurroundOcc
文章目录
1、Background and Motivation

自动驾驶中的3D场景理解:在自动驾驶系统中,理解周围环境的3D几何结构是基本且关键的任务。传统的LiDAR传感器虽然能够直接获取几何信息,但存在成本高、扫描点稀疏等局限性,限制了其进一步应用。
视觉为中心的自动驾驶:近年来,以视觉为中心的自动驾驶方法因其低成本和丰富的语义信息而受到广泛关注。传统方法多依赖3D物体检测,但难以描述任意形状(arbitrary shapes)和无限类别(infinite classes)的真实世界物体。
多摄像头3D占用预测的需求:与3D目标检测相比,3D占用预测能够描述任意形状和无限类别的真实世界物体,为下游感知任务(如运动预测和路径规划)提供更全面的场景理解。
为了解决上述问题,本文提出了SurroundOcc方法,旨在利用多摄像头图像预测周围3D场景的密集占用情况。
该方法通过提取多尺度特征、应用2D-3D空间注意力机制、逐步上采样体积特征并施加多级监督,实现了密集且准确的3D占用预测。同时,设计了一个管道来生成密集的占用标签,而无需昂贵的占用标注。
2、Related Work
- Voxel-based Scene Representation(describes each voxel by a vector feature)
lidar segmentation、3D semantic scene completion(SCC)、3D occupancy prediction
MonoScene、TPVFormer - 3D Scene Reconstruction
SurroundDepth、SurfaceNet、Atlas、NeuralRecon、TransformerFusion
most of these 3D scene reconstruction methods are designed for indoor scenes - Vision-based 3D Perception
Depth-based methods、implicitly learn 3D features without producing explicit depth maps(eg BEV feature、OCC feature)
BEVFormer
3、Advantages / Contributions
一部分是如何利用多帧的 lidar 点云构建稠密 occupancy 数据集
devise a pipeline to generate dense occupancy ground truth for training
另一部分是如何设计 occupancy 预测的网络
4、Method

perform 2D-3D spatial attention(核心,2D to 3D transformer)
upsample and combine multi-scale volume features.
decayed weighted loss
backbone for nuscene datasets
Wang T, Zhu X, Pang J, et al. Fcos3d: Fully convolutional one-stage monocular 3d object detection[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 913-922.
backone for SemanticKITTI datasets
EfficientNetB7
输入
- 环视图
- img_metas,比较重要的是相机内外参 lidar2img ,和总线信息 can_bus

输出

grid mask 数据增强

4.1、2D-3D Spatial Attention
本文的核心模块之一,代码比较复杂,借鉴的是


最低0.47元/天 解锁文章
1908

被折叠的 条评论
为什么被折叠?



