【论文阅读】【三维目标检测】Part-A^2Net

Part-A2Net是用于3D对象检测的深度学习网络,它结合了part-aware和part-aggregation模块。点云首先通过体素化处理,然后通过sparse convolution和submanifold sparse convolution进行特征提取。主干网络的输出包括4维特征图和提案。RPN头用于进一步处理,最后通过RoI-aware point cloud pooling和特征聚合进行目标检测。实验表明,这种方法在点云处理中取得了良好的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文章 Part-A2 Net: 3D Part-Aware and Aggregation Neural Network for Object Detection from Point Cloud

该文章的作者与PointRCNN同一作者,在PointRCNN在KITTI数据集登顶之后,又一篇3D Object Detection的文章。目前该文章还没有放出代码,所以先读一下了解一下其中思想。

Part-A2 Net

该文章提出了part-aware和part-aggregation module,并使用这两个模块,组成了Part-A2 Net,完成3D Object Detection任务。我们就按照着论文的写作顺序来记笔记。首先先介绍一下整体的网络框架,如下图:
在这里插入图片描述

整个网络分为如下两个模块,part-aware和part-aggregation。可以对比着Faster-RCNN来进行理解,part-aware stage就相当于主干网络和RPN,它的输出就是一个4维度feature map和Proposals。Part-aggregation stage就相当于RoI Pooling和后面的Classifier的这部分。

Part-aware Stage

将点云体素化

就是将整个空间栅格化,然后对每一个格子生成feature。生成这种feature的方式文中引用了VoxelNet,使用全连接层和max pooling对栅格内的点云进行自动地特征提取得到每个栅格的feature。我认为也可以参考PIXOR,手动的设置每个栅格内的feature。

VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection (CVPR2018)
PIXOR: Real-time 3D Object Detection from Point Clouds (CVPR2018)

主干网络

主干网络类似于U-net的形式,先通过步长为2的一些卷积层将输入降采样至1/8的大小,然后再通过Upsampling上采样至原来的分辨率,这样就得到了Voxel-wise的feature,这作为其中的一部分输出。

构成主干网络的卷积,下采样和上采样的具体模块与在CV中的CNN的模块均不相同,这一点主要是因为体素化后的输入是一个四维tensor,有长宽高+featur

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值