【3D视觉】PointNet论文阅读

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation, CVPR, 2017

论文地址

摘要

点云是一种重要的几何数据结构。由于其格式不规则,大多数研究人员会将此类数据转换为规则的三维体素网格或图像集合。然而,这会导致数据量过大并引发问题。本文设计了一种新型神经网络,它直接处理点云数据,并很好地保留了输入点的置换不变性。PointNet 网络为对象分类、部件分割和场景语义解析等应用提供了统一的架构。PointNet 虽然简单,但却高效且有效。经验表明,它的性能与当前最佳技术相当甚至更好。从理论上讲,我们分析了该网络学到了什么,以及为什么它能够抵御输入扰动和损坏。

引言

在本文中,主要探索了能够推理点云或网格等三维几何数据的深度学习架构。典型的卷积架构需要高度规则的输入数据格式,例如图像网格或三维体素,以便执行权重共享和其他内核优化。由于点云或网格并非规则格式,大多数研究人员通常会将此类数据转换为规则的三维体素网格或图像集合,然后再将其输入到深度网络架构中。然而,这种数据表示转换会导致生成的数据不必要地庞大,同时还会引入量化伪影,从而掩盖数据的自然不变性。因此,我们专注于使用简单的点云来表示三维几何体,并将得到的深度网络命名为PointNet。

引出方法

PointNet 是一个统一的架构,它直接将点云作为输入,并输出整个输入的类标签或输入中每个点的点段/部分标签。因为在初始阶段,每个点都以相同且独立的方式进行处理,所以网络的基本架构简单。在基本设置中,每个点仅由其三个坐标(x, y, z) 表示。可以通过计算法线和其他局部或全局特征来添加其他维度。

我们方法的关键在于使用单个对称函数-最大池化。实际上,网络会学习一组优化函数/标准,用于从点云中选择有趣或信息丰富的点,并编码选择这些点的原因。网络的最终全连接层将这些学习到的最优值聚合到如上所述的整个形状的全局描述符中(形状分类),或者用于预测每个点的标签(形状分割)。

由于每个点都独立变换,我们的输入格式易于应用刚性变换或仿射变换。因此,我们可以添加一个数据相关的空间变换网络,在 PointNet 处理数据之前尝试对其进行规范化,从而进一步提升结果。

对我们的方法进行了理论分析和实验评估。结果表明,我们的网络可以逼近任何连续的集合函数。更有趣的是,我们的网络能够学习用一组稀疏的关键点来概括输入点云,根据可视化结果,这大致对应于物体的骨架。理论分析解

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值