【论文阅读】【3d目标检测】voxel RCNN

最新推荐文章于 2025-06-24 09:49:51 发布

原创

最新推荐文章于 2025-06-24 09:49:51 发布 · 3.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉

VoxelR-CNN是香港中文大学施老师团队在AAAI2021提出的一种纯体素架构，用于3D目标检测。研究发现，精确的原始点云点对于高精度检测并非必需，粗粒度的体素也能实现良好效果。论文提出了一种新的框架，包括3D backbone、2D backbone生成ROI和基于体素的精炼阶段，重点在于优化3D卷积以提升AP并提高效率。通过使用曼哈顿距离寻找邻近点并加速局部聚合操作，减少了计算复杂度，提升了网络速度和精度。

论文标题：Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection
AAAI2021 香港中文大学
施老师的团队
本文是一个纯voxel的架构，作者讲这个故事主要是出于这么一个原因：位置精确的原始点对于高性能的3D目标检测并不重要，粗粒度的体素也足以完成高精度检测。
在这里插入图片描述
作者通过实验发现：3d卷积对于ap提升十分必要，所以基于bev的second 精度不尽人意。
且点与voxel的交互是很耗费时间的。
那么能不能设计一个完全基于voxel的网络，同时考虑3d的信息，这样既能兼顾ap又能兼顾检测速度。
这便是故事的起源。。。
老规矩，上图：
在这里插入图片描述
从上图可以看出，本文主要由三个部分组成：
3d的backbone、2d的backbone且在它上面生成roi、最后基于voxel的refinement。