
arXiv-2023
code:https://github.com/Yzichen/FlashOCC
文章目录
1、Background and Motivation
Background
-
自动驾驶中的3D感知需求:
- 3D物体检测的局限性:传统的3D物体检测主要生成预定义类别内的边界框,这在实际应用中存在两大问题:长尾分布缺陷(long-tail deficiencies 即未标注类别在现实场景中出现)和复杂形状缺失( intricate-shaped absence 现有方法难以捕捉物体的精细几何形状)。
- 占用预测的兴起:为了应对这些挑战,占用预测(Occupancy Prediction)作为一种新兴任务,通过预测3D空间中每个体素的语义类别,能够识别不属于预定义类别的对象,并更详细地表示场景
-
现有占用预测方法的挑战:
- 计算与内存开销大:传统的占用预测方法依赖于三维体素级别的表示,需要进行复杂的三维卷积运算
Motivation
-
提高部署兼容性:
- 降低计算与内存需求:本研究旨在通过设计一种高效且内存友好的占用预测方法,减少对三维卷积的依赖,从而降低计算复杂性和内存消耗。
-
保持高精度:
- 利用BEV特征:尽管FlashOcc减少了三维卷积的使用,但通过利用BEV(Bird’s Eye View)级别的特征,并通过通道到高度变换将其转换为三维占用预测结果,成功保持了高精度。
- 广泛实验验证
-
促进自动驾驶技术发展
2、Related Work
-
三维体素级占用预测(Voxel-level 3D Occupancy Prediction):
- 起源与发展:三维占用预测的任务最早可以追溯到占用网格图(Occupancy Grid Maps, OGM),其目标是从图像中提取详细的3D场景结构信息,以支持下游的规划和导航任务。现有研究可分为稀疏感知和密集感知两类,稀疏感知方法直接从激光雷达点云获得监督,并在激光雷达数据集上进行评估;密集感知方法则与语义场景补全(SSC)有相似之处。
- 代表性工作:Voxformer、 Occ3D、RenderOcc
-
基于BEV的三维场景感知(BEV-based 3D Scene Perception):
- 方法概述:与体素方法相比,减少了高度维度上的特征表示,从而提高了计算效率,并避免了三维卷积的使用,更加便于部署。
- 应用场景:BEV方法在多种3D场景感知任务中表现出色,如3D车道线检测、深度估计、3D物体检测和3D物体跟踪。尽管目前还没有基于BEV特征进行占用预测的方法,但BEV特征能够隐式地捕捉高度信息( BEV-level features can capture height information implicitly),这在不平坦的路面或悬浮物体的场景中得到了验证。
-
高效的子像素范式(Efficient Su

最低0.47元/天 解锁文章

1044

被折叠的 条评论
为什么被折叠?



