【FlashOcc】《FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin》

原创

已于 2025-10-09 10:29:08 修改 · 666 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-09-28 21:14:16 首次发布

在这里插入图片描述

arXiv-2023

code：https://github.com/Yzichen/FlashOCC

1、Background and Motivation

Background

自动驾驶中的3D感知需求：
- 3D物体检测的局限性：传统的3D物体检测主要生成预定义类别内的边界框，这在实际应用中存在两大问题：长尾分布缺陷（long-tail deficiencies 即未标注类别在现实场景中出现）和复杂形状缺失（ intricate-shaped absence 现有方法难以捕捉物体的精细几何形状）。
- 占用预测的兴起：为了应对这些挑战，占用预测（Occupancy Prediction）作为一种新兴任务，通过预测3D空间中每个体素的语义类别，能够识别不属于预定义类别的对象，并更详细地表示场景
现有占用预测方法的挑战：
- 计算与内存开销大：传统的占用预测方法依赖于三维体素级别的表示，需要进行复杂的三维卷积运算

Motivation

提高部署兼容性：
- 降低计算与内存需求：本研究旨在通过设计一种高效且内存友好的占用预测方法，减少对三维卷积的依赖，从而降低计算复杂性和内存消耗。
保持高精度：
- 利用BEV特征：尽管FlashOcc减少了三维卷积的使用，但通过利用BEV（Bird’s Eye View）级别的特征，并通过通道到高度变换将其转换为三维占用预测结果，成功保持了高精度。
- 广泛实验验证
促进自动驾驶技术发展

三维体素级占用预测（Voxel-level 3D Occupancy Prediction）：
- 起源与发展：三维占用预测的任务最早可以追溯到占用网格图（Occupancy Grid Maps, OGM），其目标是从图像中提取详细的3D场景结构信息，以支持下游的规划和导航任务。现有研究可分为稀疏感知和密集感知两类，稀疏感知方法直接从激光雷达点云获得监督，并在激光雷达数据集上进行评估；密集感知方法则与语义场景补全（SSC）有相似之处。
- 代表性工作：Voxformer、 Occ3D、RenderOcc
基于BEV的三维场景感知（BEV-based 3D Scene Perception）：
- 方法概述：与体素方法相比，减少了高度维度上的特征表示，从而提高了计算效率，并避免了三维卷积的使用，更加便于部署。
- 应用场景：BEV方法在多种3D场景感知任务中表现出色，如3D车道线检测、深度估计、3D物体检测和3D物体跟踪。尽管目前还没有基于BEV特征进行占用预测的方法，但BEV特征能够隐式地捕捉高度信息（ BEV-level features can capture height information implicitly），这在不平坦的路面或悬浮物体的场景中得到了验证。
高效的子像素范式（Efficient Su