BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object Detection

该论文提出了BEVDistill,一种在BEV空间中进行的跨模态蒸馏方法,用于提升纯相机的3D物体检测性能。通过将LiDAR和相机输入转化为BEV特征并应用两种损失函数——密集特征蒸馏和稀疏实例蒸馏,提高了单帧和多帧检测的NDS。在BEVFormer基础上实验,NDS提升了3.4(单帧)和2.7(多帧),并在NuScenes测试集上达到最高59.4的NDS。

Paper name

BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object Detection

Paper Reading Note

URL: https://openreview.net/forum?id=-2zfgNS917

TL;DR

  • ICLR 2023 openreview 挂的文章,主要做 lidar -> camera 模态的蒸馏,在 BEVFormer 的基础上做实验, NDS 提升了 3.4 (单帧)2.7(多帧),NuScenes test 集上的最高 NDS 为 59.4

Introduction

背景

  • 基于纯 camera 的 3d 物体检测方法有成本低和高性能的优势,同时在远距离物体检测与类别识别上有优势
  • 基于纯 camera 的方法对于距离定位还是比较困难的,这部分信息可以通过 lidar 获取,所以希望通过 lidar 蒸馏来提升纯 camera 性能
  • 当前的基于 lidar 提升 camera 的问题
    • 基于lidar额外训练一个深度估计模块:部分方法需要在 inference 时增加深度估计模块,增加了 inference 耗时
    • lidar 蒸馏 camera:
      • monodistill 将 lidar 点转换到图像域上,让 lidar teacher 难以实现较高精度,导致蒸馏性能低
      • UVTR 在 voxel space 上蒸馏,需要让 2d 分支也模拟出 3d 特征,忽视了不同模态之间的固有差异

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值