目录
文章 Part-A2 Net: 3D Part-Aware and Aggregation Neural Network for Object Detection from Point Cloud
该文章的作者与PointRCNN同一作者,在PointRCNN在KITTI数据集登顶之后,又一篇3D Object Detection的文章。目前该文章还没有放出代码,所以先读一下了解一下其中思想。
Part-A2 Net
该文章提出了part-aware和part-aggregation module,并使用这两个模块,组成了Part-A2 Net,完成3D Object Detection任务。我们就按照着论文的写作顺序来记笔记。首先先介绍一下整体的网络框架,如下图:
整个网络分为如下两个模块,part-aware和part-aggregation。可以对比着Faster-RCNN来进行理解,part-aware stage就相当于主干网络和RPN,它的输出就是一个4维度feature map和Proposals。Part-aggregation stage就相当于RoI Pooling和后面的Classifier的这部分。
Part-aware Stage
将点云体素化
就是将整个空间栅格化,然后对每一个格子生成feature。生成这种feature的方式文中引用了VoxelNet,使用全连接层和max pooling对栅格内的点云进行自动地特征提取得到每个栅格的feature。我认为也可以参考PIXOR,手动的设置每个栅格内的feature。
VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection (CVPR2018)
PIXOR: Real-time 3D Object Detection from Point Clouds (CVPR2018)
主干网络
主干网络类似于U-net的形式,先通过步长为2的一些卷积层将输入降采样至1/8的大小,然后再通过Upsampling上采样至原来的分辨率,这样就得到了Voxel-wise的feature,这作为其中的一部分输出。
构成主干网络的卷积,下采样和上采样的具体模块与在CV中的CNN的模块均不相同,这一点主要是因为体素化后的输入是一个四维tensor,有长宽高+featur