【FlashOcc】《FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin》

在这里插入图片描述

arXiv-2023

code:https://github.com/Yzichen/FlashOCC



1、Background and Motivation

Background

  1. 自动驾驶中的3D感知需求

    • 3D物体检测的局限性:传统的3D物体检测主要生成预定义类别内的边界框,这在实际应用中存在两大问题:长尾分布缺陷(long-tail deficiencies 即未标注类别在现实场景中出现)和复杂形状缺失( intricate-shaped absence 现有方法难以捕捉物体的精细几何形状)。
    • 占用预测的兴起:为了应对这些挑战,占用预测(Occupancy Prediction)作为一种新兴任务,通过预测3D空间中每个体素的语义类别,能够识别不属于预定义类别的对象,并更详细地表示场景
  2. 现有占用预测方法的挑战

    • 计算与内存开销大:传统的占用预测方法依赖于三维体素级别的表示,需要进行复杂的三维卷积运算

Motivation

  1. 提高部署兼容性

    • 降低计算与内存需求:本研究旨在通过设计一种高效且内存友好的占用预测方法,减少对三维卷积的依赖,从而降低计算复杂性和内存消耗。
  2. 保持高精度

    • 利用BEV特征:尽管FlashOcc减少了三维卷积的使用,但通过利用BEV(Bird’s Eye View)级别的特征,并通过通道到高度变换将其转换为三维占用预测结果,成功保持了高精度。
    • 广泛实验验证
  3. 促进自动驾驶技术发展

2、Related Work

  1. 三维体素级占用预测(Voxel-level 3D Occupancy Prediction)

    • 起源与发展:三维占用预测的任务最早可以追溯到占用网格图(Occupancy Grid Maps, OGM),其目标是从图像中提取详细的3D场景结构信息,以支持下游的规划和导航任务。现有研究可分为稀疏感知密集感知两类,稀疏感知方法直接从激光雷达点云获得监督,并在激光雷达数据集上进行评估;密集感知方法则与语义场景补全(SSC)有相似之处。
    • 代表性工作:Voxformer、 Occ3D、RenderOcc
  2. 基于BEV的三维场景感知(BEV-based 3D Scene Perception)

    • 方法概述:与体素方法相比,减少了高度维度上的特征表示,从而提高了计算效率,并避免了三维卷积的使用,更加便于部署。
    • 应用场景:BEV方法在多种3D场景感知任务中表现出色,如3D车道线检测、深度估计、3D物体检测和3D物体跟踪。尽管目前还没有基于BEV特征进行占用预测的方法,但BEV特征能够隐式地捕捉高度信息( BEV-level features can capture height information implicitly),这在不平坦的路面或悬浮物体的场景中得到了验证。
  3. 高效的子像素范式(Efficient Su

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值