Paper name
BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object Detection
Paper Reading Note
URL: https://openreview.net/forum?id=-2zfgNS917
TL;DR
- ICLR 2023 openreview 挂的文章,主要做 lidar -> camera 模态的蒸馏,在 BEVFormer 的基础上做实验, NDS 提升了 3.4 (单帧)2.7(多帧),NuScenes test 集上的最高 NDS 为 59.4
Introduction
背景
- 基于纯 camera 的 3d 物体检测方法有成本低和高性能的优势,同时在远距离物体检测与类别识别上有优势
- 基于纯 camera 的方法对于距离定位还是比较困难的,这部分信息可以通过 lidar 获取,所以希望通过 lidar 蒸馏来提升纯 camera 性能
- 当前的基于 lidar 提升 camera 的问题
- 基于lidar额外训练一个深度估计模块:部分方法需要在 inference 时增加深度估计模块,增加了 inference 耗时
- lidar 蒸馏 camera:
- monodistill 将 lidar 点转换到图像域上,让 lidar teacher 难以实现较高精度,导致蒸馏性能低
- UVTR 在 voxel space 上蒸馏,需要让 2d 分支也模拟出 3d 特征,忽视了不同模态之间的固有差异

该论文提出了BEVDistill,一种在BEV空间中进行的跨模态蒸馏方法,用于提升纯相机的3D物体检测性能。通过将LiDAR和相机输入转化为BEV特征并应用两种损失函数——密集特征蒸馏和稀疏实例蒸馏,提高了单帧和多帧检测的NDS。在BEVFormer基础上实验,NDS提升了3.4(单帧)和2.7(多帧),并在NuScenes测试集上达到最高59.4的NDS。
最低0.47元/天 解锁文章
3200

被折叠的 条评论
为什么被折叠?



