(一)摘要
- 对于点云数据的处理:将点云数据转到3D voxel grids或者collections of data
- 本文直接处理点云,充分考虑了输入点的置换不变性,即PointNet
- 从经验上表现出与state of art 相当或者更好;从理论上讲,我们分析了网络已经学习了什么,以及为什么网络对于输入扰动和破坏具有鲁棒性。
(二)介绍
-
在设计针对点云的新型网络架构时,需要考虑点云对其成员的排列不变性(invariant to permutations of its members),在网络计算中需要某些对称(certain symmetrizations)。进一步的刚性运动不变性(invariances to rigid motions)也需要考虑
-
PointNet输入输出
输入:直接将点云作为输入
输出:整个输入的类标签(分类任务),或者每个point所属的类(分割任务)
-
本文对于神经网络无序集的处理,并且希望可以扩展到其他领域
(三)相关工作
3.1 点云特征Point Cloud Features
- 什么是点云特征?
- 针对特定任务手动制作的(handcrafted)
- 编码点的统计特征,对于特定变换具有不变性
- 可以分为内在特征和外在特征,或者分为局部特征和全局特征
- 对于特定任务,找到最优的特征组合是很重要的
3.2 3D数据的深度学习方法
- Volumetric CNNs,受限制于数据稀疏性以及3D卷积的计算消耗
- FPNN和Vote 3D用于解决稀疏问题,但是无法处理大规模点云
- Multiview CNNs:将3D转成2D图像序列,使用2D卷积网络分类,好处是可以使用工程化的CNN网络。但是这种方法无法扩展到场景理解,point classification 以及shape completion
- Spectral CNNs:use spectral CNNs on meshes,但是受限于manifold meshes。并且无法扩展到non-isometric形状上
- Feature-based DNNs:首先将三维数据转化为矢量,提取传统的形状特征,然后利用全连通网络进行形状分类。我们认为它们受到了提取特征的表示能力的限制。
3.3 Deep Learning on Unordered Sets
-
集中在point sets上无序集的工作很少
Oriol Vinyals et al [25]:They use a read-process-write network with attention mechanism to consume unordered input sets and show that their network has the ability to sort numbers.他们的工作集中在generic sets和NLP。数据集中缺乏几何结构
(四)问题描述
-
点云的数学形式化表示
{ P i ∣ i = 1 , … , n } \left\{P_{i} \mid i=1, \ldots, n\right\} { Pi∣i=1,…,n},其中 P i P_{i} Pi是一个向量,包含 ( x , y , z ) (x,y,z) (x,y,z)坐标以及额外的特征通道:color和normal
-
点云处理的任务
目标分类(数据来源 directly sampled from a shape or pre-segmented from a scene point cloud),然后目标是输出 k k k个分数。
分割任务,输出 n × m n \times m n×m个,其中 n n n为点的数量, m m m为分割子类(点分割任务需要combination of global and local knowledge)
(五)点集上的深度学习
5.1 在 R n \mathbb{R}^{n} Rn空间中Point Sets的特征
-
无序性,对N个元素进行排序,有N!种方式,然而这些不同的排序对结果没有影响
-
邻居点的相互作用,相邻的点形成一个有意义的子集。因此,该模型需要能够从附近的点获取局部结构
-
在transformation下的不变性:一起旋转和平移的点不应该改变全局点云类别,也不应该改变点的分割。
给我的感觉就是迫切需要针对这种结构的深度学习网络架构,比如说:图神经网络