随着最近几年神经网络在CV、NPL等领域取得重大的成果,因此就有学者希望将神经网络应用于3D任务中。在这篇文章(PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation)出现之前,一般在3D任务中用的最多的数据格式是3D体素(3D voxel grids)以及多视角投影,因为3D体素数据格式可以直接用过3D卷积处理数据,多视角投影数据格式可以通过2D卷积处理数据,这两种数据格式都可以利用CNN算子共享权重减少计算量;但是对于3D体素格式来说任务效果以及计算量是取决于它的分辨率的,高分辨当然可以获得不错的效果,但是计算量会几何的增加,对于多视角投影来说往往会损失一些几何信息,比如遮挡。点云数据在3D几何表示中作为一种重要的数据格式,它不存在着3D体素以及多视角投影遇到的那些问题,因此这篇文章提出了一种通用的用于处理点云数据的神经网络框架。
模型架构
我们先来看PointNet的整理框架,如下图1所示,可以将框架分成两个部分,第一个部分用于提取全局特征,第二个部分用于点云分类或者点云分割。对于第一个部分,首先是通过一个仿射变换模块(T-Net)对数据做仿射变换,然后由共享的多层感知器(MLP)逐点提取特征,此时数据维度为64,然后又经过一个T-Net模块做放射变换,再由共享的多层感知器逐点提取特征,此时的数据维度为1024,最后再经过max pool得到一个1024维的向量。对于第二个部分,如果是点云分类任务,可以直接将全局特征输入mlp预测scores,如果是点云分割,那么需要将全局特征与每个顶点向量cat起来,然后输入给mlp对每个顶点分类。后面我们逐个介绍为什么作者要设计这些模块。

PointNet是第一篇提出直接处理点云数据的深度学习论文,解决了3D体素和多视角投影的局限。模型通过T-Net进行仿射变换学习,确保数据变换不变性,再通过maxpooling处理点云的无序性。实验表明,PointNet在点云分类任务上表现出色,其理论分析证明了模型的普适性和关键点特征提取能力。
最低0.47元/天 解锁文章
9605

被折叠的 条评论
为什么被折叠?



