【SurroundOcc】《SurroundOcc：Multi-Camera 3D Occupancy Prediction for Autonomous Driving》

原创

于 2025-10-02 22:44:42 发布 · 668 阅读

·

9

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#3d #OCC #surroundOCC #BEVFormer #自动驾驶

在这里插入图片描述

ICCV-2023

code：https://github.com/weiyithu/SurroundOcc

文章目录

1、Background and Motivation
2、Related Work
3、Advantages / Contributions
4、Method
5、Experiments
6、Conclusion（own） / Future work
附录——Surrounddepth
附录——Poisson surface reconstruction
附录——Deformable detr

1、Background and Motivation

在这里插入图片描述

自动驾驶中的3D场景理解：在自动驾驶系统中，理解周围环境的3D几何结构是基本且关键的任务。传统的LiDAR传感器虽然能够直接获取几何信息，但存在成本高、扫描点稀疏等局限性，限制了其进一步应用。

视觉为中心的自动驾驶：近年来，以视觉为中心的自动驾驶方法因其低成本和丰富的语义信息而受到广泛关注。传统方法多依赖3D物体检测，但难以描述任意形状（arbitrary shapes）和无限类别（infinite classes）的真实世界物体。

多摄像头3D占用预测的需求：与3D目标检测相比，3D占用预测能够描述任意形状和无限类别的真实世界物体，为下游感知任务（如运动预测和路径规划）提供更全面的场景理解。

为了解决上述问题，本文提出了SurroundOcc方法，旨在利用多摄像头图像预测周围3D场景的密集占用情况。

该方法通过提取多尺度特征、应用2D-3D空间注意力机制、逐步上采样体积特征并施加多级监督，实现了密集且准确的3D占用预测。同时，设计了一个管道来生成密集的占用标签，而无需昂贵的占用标注。

2、Related Work

Voxel-based Scene Representation（describes each voxel by a vector feature）
lidar segmentation、3D semantic scene completion（SCC）、3D occupancy prediction
MonoScene、TPVFormer
3D Scene Reconstruction
SurroundDepth、SurfaceNet、Atlas、NeuralRecon、TransformerFusion
most of these 3D scene reconstruction methods are designed for indoor scenes
Vision-based 3D Perception
Depth-based methods、implicitly learn 3D features without producing explicit depth maps（eg BEV feature、OCC feature）
BEVFormer

3、Advantages / Contributions

一部分是如何利用多帧的 lidar 点云构建稠密 occupancy 数据集
devise a pipeline to generate dense occupancy ground truth for training

另一部分是如何设计 occupancy 预测的网络

4、Method

在这里插入图片描述

perform 2D-3D spatial attention（核心，2D to 3D transformer）

upsample and combine multi-scale volume features.

decayed weighted loss

backbone for nuscene datasets

Wang T, Zhu X, Pang J, et al. Fcos3d: Fully convolutional one-stage monocular 3d object detection[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 913-922.

backone for SemanticKITTI datasets

EfficientNetB7

输入

环视图
img_metas，比较重要的是相机内外参 lidar2img ，和总线信息 can_bus

输出

在这里插入图片描述

grid mask 数据增强

在这里插入图片描述

4.1、2D-3D Spatial Attention

本文的核心模块之一，代码比较复杂，借鉴的是

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。