论文标题:Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection
AAAI2021 香港中文大学
施老师的团队
本文是一个纯voxel的架构,作者讲这个故事主要是出于这么一个原因:位置精确的原始点对于高性能的3D目标检测并不重要,粗粒度的体素也足以完成高精度检测。

作者通过实验发现:3d卷积对于ap提升十分必要,所以基于bev的second 精度不尽人意。
且点与voxel的交互是很耗费时间的。
那么能不能设计一个完全基于voxel的网络,同时考虑3d的信息,这样既能兼顾ap又能兼顾检测速度。
这便是故事的起源。。。
老规矩,上图:

从上图可以看出,本文主要由三个部分组成:
3d的backbone、2d的backbone且在它上面生成roi、最后基于voxel的refinement。
基本可以发觉这个框架的主要计算量在3d卷积上。
那么如何提升ap则取决于voxel的feature挖掘上!这个我们详细解读。
首先对于原点云我们进行体素化,将他进行3d卷积,最后投影到bev进行roi提取。这一部分主要是参考的second,主要是生成roi方便后面的refinement。
对于体素规则地排列的特性,我们可以对之进行充分地利用来提升我们的网络推理速度:
我们将每个voxel视为一个个的point,类似于一个个的pixel。
对于每一个roi的grid point,我们可以采用曼哈顿距离寻找他的邻居点。

VoxelR-CNN是香港中文大学施老师团队在AAAI2021提出的一种纯体素架构,用于3D目标检测。研究发现,精确的原始点云点对于高精度检测并非必需,粗粒度的体素也能实现良好效果。论文提出了一种新的框架,包括3D backbone、2D backbone生成ROI和基于体素的精炼阶段,重点在于优化3D卷积以提升AP并提高效率。通过使用曼哈顿距离寻找邻近点并加速局部聚合操作,减少了计算复杂度,提升了网络速度和精度。
最低0.47元/天 解锁文章
7568

被折叠的 条评论
为什么被折叠?



