【3D视觉】PointNet论文阅读

最新推荐文章于 2025-09-29 09:28:44 发布

原创

最新推荐文章于 2025-09-29 09:28:44 发布 · 1.2k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#3d #论文阅读 #计算机视觉

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation， CVPR， 2017

论文地址

摘要

点云是一种重要的几何数据结构。由于其格式不规则，大多数研究人员会将此类数据转换为规则的三维体素网格或图像集合。然而，这会导致数据量过大并引发问题。本文设计了一种新型神经网络，它直接处理点云数据，并很好地保留了输入点的置换不变性。PointNet 网络为对象分类、部件分割和场景语义解析等应用提供了统一的架构。PointNet 虽然简单，但却高效且有效。经验表明，它的性能与当前最佳技术相当甚至更好。从理论上讲，我们分析了该网络学到了什么，以及为什么它能够抵御输入扰动和损坏。

引言

在本文中，主要探索了能够推理点云或网格等三维几何数据的深度学习架构。典型的卷积架构需要高度规则的输入数据格式，例如图像网格或三维体素，以便执行权重共享和其他内核优化。由于点云或网格并非规则格式，大多数研究人员通常会将此类数据转换为规则的三维体素网格或图像集合，然后再将其输入到深度网络架构中。然而，这种数据表示转换会导致生成的数据不必要地庞大，同时还会引入量化伪影，从而掩盖数据的自然不变性。因此，我们专注于使用简单的点云来表示三维几何体，并将得到的深度网络命名为PointNet。

引出方法

PointNet 是一个统一的架构，它直接将点云作为输入，并输出整个输入的类标签或输入中每个点的点段/部分标签。因为在初始阶段，每个点都以相同且独立的方式进行处理，所以网络的基本架构简单。在基本设置中，每个点仅由其三个坐标(x, y, z) 表示。可以通过计算法线和其他局部或全局特征来添加其他维度。

我们方法的关键在于使用单个对称函数-最大池化。实际上，网络会学习一组优化函数/标准，用于从点云中选择有趣或信息丰富的点，并编码选择这些点的原因。网络的最终全连接层将这些学习到的最优值聚合到如上所述的整个形状的全局描述符中（形状分类），或者用于预测每个点的标签（形状分割）。

由于每个点都独立变换，我们的输入格式易于应用刚性变换或仿射变换。因此，我们可以添加一个数据相关的空间变换网络，在 PointNet 处理数据之前尝试对其进行规范化，从而进一步提升结果。

对我们的方法进行了理论分析和实验评估。结果表明，我们的网络可以逼近任何连续的集合函数。更有趣的是，我们的网络能够学习用一组稀疏的关键点来概括输入点云，根据可视化结果，这大致对应于物体的骨架。理论分析解