论文标题:HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object Detection
源码地址:https://cvlab.yonsei.ac.kr/projects/HVPR
延世大学出品
文章认为voxel的方法和point的方法各有优劣,这是一个老生常谈的问题 文章让读者耳目一新的地方是两者的一种新结合方式及一种省时省力的方式来调用point feature。
老规矩 上图:

首先讲讲怎么提取voxel和point的特征:
对于voxel:
我们首先划分voxel的范围 这里作者划分voxel的范围是直接采用pillar的形式 对于其中的点采用的是一个tiny pointnet的形式 并跟着一个max pool的操作 (这里为啥不用VFE呢 我也不太清楚 可能是为了承袭pointpillar中的操作?)
对于point:
直接使用的是pointnet++的SA和FP层 得到local feature的交互。
随后便是文章的重点:
如何进行上述两种feature的交互呢?作者首先计算voxel和points的交互矩阵:

其中C为一个NM的矩阵,N是voxel的个数 M便是points的个数 我们对于这个交互矩阵取每个voxel的权重值:

取出每个voxel对应points的value在前k个的值

论文提出了一种名为HVPR的混合体素-点表示方法,用于单阶段3D对象检测。该方法结合了体素和点云特征的长处,通过交互矩阵计算和注意力机制融合特征。作者还引入了voxel内存来提高交互效率,并利用3D尺度特征考虑点云的稀疏性。实验表明,提出的Attentive Multi-scale Feature Module (AMFM)显著提升了检测效果。尽管结果可能不如某些方法,但其速度优势使其成为一个合理的比较选择。
最低0.47元/天 解锁文章
4万+

被折叠的 条评论
为什么被折叠?



