论文解读PointNet（用于点云处理的深度学习框架）

最新推荐文章于 2025-09-28 10:54:40 发布

原创

最新推荐文章于 2025-09-28 10:54:40 发布 · 4.6k 阅读

51 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #机器学习

PointNet是第一篇提出直接处理点云数据的深度学习论文，解决了3D体素和多视角投影的局限。模型通过T-Net进行仿射变换学习，确保数据变换不变性，再通过maxpooling处理点云的无序性。实验表明，PointNet在点云分类任务上表现出色，其理论分析证明了模型的普适性和关键点特征提取能力。

随着最近几年神经网络在CV、NPL等领域取得重大的成果，因此就有学者希望将神经网络应用于3D任务中。在这篇文章（PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation）出现之前，一般在3D任务中用的最多的数据格式是3D体素(3D voxel grids)以及多视角投影，因为3D体素数据格式可以直接用过3D卷积处理数据，多视角投影数据格式可以通过2D卷积处理数据，这两种数据格式都可以利用CNN算子共享权重减少计算量；但是对于3D体素格式来说任务效果以及计算量是取决于它的分辨率的，高分辨当然可以获得不错的效果，但是计算量会几何的增加，对于多视角投影来说往往会损失一些几何信息，比如遮挡。点云数据在3D几何表示中作为一种重要的数据格式，它不存在着3D体素以及多视角投影遇到的那些问题，因此这篇文章提出了一种通用的用于处理点云数据的神经网络框架。

模型架构

我们先来看PointNet的整理框架，如下图1所示，可以将框架分成两个部分，第一个部分用于提取全局特征，第二个部分用于点云分类或者点云分割。对于第一个部分，首先是通过一个仿射变换模块(T-Net)对数据做仿射变换，然后由共享的多层感知器（MLP）逐点提取特征，此时数据维度为64，然后又经过一个T-Net模块做放射变换，再由共享的多层感知器逐点提取特征，此时的数据维度为1024，最后再经过max pool得到一个1024维的向量。对于第二个部分，如果是点云分类任务，可以直接将全局特征输入mlp预测scores，如果是点云分割，那么需要将全局特征与每个顶点向量cat起来，然后输入给mlp对每个顶点分类。后面我们逐个介绍为什么作者要设计这些模块。