【学习笔记】:PointNet的补充材料

本文对比分析了PointNet与VoxNet在网络框架、鲁棒性及应用等方面的表现,包括点云分类、分割、三维目标检测等内容,并探讨了最大池化与输入点数对性能的影响。

1.比较PointNet与VoxNet的网络:

使用两个网络处理缺失点云数据,测试鲁棒性,划分相同的数据集,以1024个点作为输入。对于VoxNet,将点云数据划为323232的网格,并使用随即旋转与抖动增强数据集。由于VoxNet对旋转敏感,使用十二个视点的平均分数,结果如下:
在这里插入图片描述
本文提出的网络对于数据缺失具有较强的鲁棒性。

2.网络框架和训练细节:

a.点云分类网络:

mini-PointNet(输入变换和特征变换),输入原始点云数据得到一个3∗33*333的矩阵,该网络又权值共享的MLP、最大池化和两个全连接层组成。 输出将矩阵倍初始化为一个单位矩阵。 除了最后一层都使用ReLu激活和批归一化处理。特征变换网络与上一个框架相同只不过输出64*64的矩阵。
在softmax分类器中加入正则化损失(权重0.001)实矩阵接近正交,在最后一个全连接层上使用0.7的dropout,并输出256个维度。批归一化的衰减率从0.5开始,然后逐渐增加到0.99。

b.点云分割网络:

分割网络使分类网络的延申,将分类网络的全局特征(softmax得到的)与中间层得到的局部特征(特征变换得到的)拼接,分割网络不使用Dropout,使用分类网络训练的参数。在拼接时又加入了表示输入类的独热编码向量(长为16)。
在这里插入图片描述
交叉类别进行训练(使用独热编码进行表明类别),只预测给定对象类别的部件标签。

c.三维卷积语义分割对照网络(Baseline 3D CNN Segmentation Network):

在这里插入图片描述
对于给定的点云数据先将其转换为32×32×32的立方体网格,第一层使用5个三维卷积核进行卷积,每层有32个通道,前四层为5∗5∗55*5*5555的核最后一层使用3∗3∗33*3*3333(会不断缩小最后输出18∗18∗1818*18*18181818大小)。每个体素的接受域为19 ,在计算出的特征图上添加1∗1∗11*1*1111的三维卷积层序列用来预测每个体素的分割标签。本网络是进行跨类别训练(但是会有标签信息)的,为了与其他方法对比,只考虑给定对象类别的输出分数。

3.检测方案的细节:

基于语义分割和分类设计三维目标检测系统,通过带有分割分数的连通分量获取场景中的目标信息,从场景中的随即一点开始,预测标签并且使用BFS收缩具有相同标签的点,收缩半径为0.2米。得到的结果簇如果超过200个点(如果结果少于200个点会减去),判定簇的边界框为一个对象,每一个预测对象的检测分数为该类别的平均分数。如果一个场景中有多个相同物体彼此相连,不能正确的将他们划分开(采用分类网络和滑动形状分割缓解这类问题)。
为每个类别训练一个二元分类网络,并采用滑动窗口检测,另外使用非最大抑制修剪,将联通分量与滑动形状预测边界组合进行最终评估。作者训练了六个模型,每个模型都在五个区域进行训练,并在左侧区域测试(左侧区域未参与训练),所有六个区域结果构成PR(召回)曲线:
在这里插入图片描述

4.更多应用:

从点云中检索模型:本模型学习全局的特征,作者希望几何上相似的形状具有相似的全局特征,于是对于给定的查询形状,输入网络获取全局特征(在得分层之前输出),并且使用最邻近方法检索类似的形状。结果如下:其中红色框选的是错误检索的。
在这里插入图片描述
形状关系:本网络获得的特征可以用于计算形状之间的对应关系,输入两个形状,匹配全局特征的相同维度来计算关键点之间的对应关系。
在这里插入图片描述

在这里插入图片描述

5.结构分析:

最大池化的维度和输入点数的影响:

比较了最大层输出的大小和输入的点数对性能的影响,随着最大池化的输出增大准确率得到提升,在1K左右达到峰值,提升了3%左右的准确率。表明需要足够的点特征函数覆盖三维空间以区分不同的形状。在这里插入图片描述

MNIST数字分类:

将网络拓展到二维的MNIST(手写数字)点云数据集,作者设置阈值并且添加了像素值大于128的像素,设置点集个数为256,若多于进行采样,少于进行填充。作者与其他传统的框架进行对比,结果好于其他的框架。

法线估计:

作者进行了全局与局部特征拼接,为局部提供了上下文信息,对拼接是否提供了上下文信息进行了探索,作者验证了分割网络可以预测点的法向量,也就验证了可以提供局部的上下文信息。设置有了一个有监督的版本,改变最后一层获得预测的法向量,并将余弦距离的绝对值作为损失。作者认为得到的结果在一些局部位置比金标准还光滑。
在这里插入图片描述

分割鲁棒性:

如上文所讲,分类网络对数据缺失和噪声具有较强的鲁棒性,这里讨论风格网络的鲁棒性。每点的预测值是基于每点的特征和全局特征得到的,结果如下,左图为输入,中间为关键点,右边为预测的最大可能边界,分割结果基本与关键点一致,

网络对不可见类别的实验:

就是测试网络对没有经过训练点集的识别能力,作者分析新出现的类别中对了一些网络未学到的平面信息,所以还是有些欠缺,但整体效果还是理想的。
在这里插入图片描述

6.定理论证:

定理一论证了设计的网络式一个对称的网络,并且可以拟合任意一个连续函数。
在这里插入图片描述

定理一:由于f是连续函数,取δϵ\delta_{\epsilon}δϵ,当dH(S,S′)<δϵd_H(S,S')<\delta_{\epsilon}dH(S,S)<δϵ时,对任意S,S′∈XS,S'\in \mathcal{X}S,SX都有∣f(S)−f(S′)∣<ϵ|f(S) - f(S')| < \epsilonf(S)f(S)<ϵ 。取K=[1/δϵ]K=[1/\delta_{\epsilon}]K=[1/δϵ],将[0,1]划分为K个空间,并定义一个辅助函数将点映射到区间的左端,(中括号表示取整函数)令,S~=δ(x)=[Kx]K,x∈S令,\widetilde{S}=\delta(x)=\frac{[K_x]}{K} ,x\in SS =δ(x)=K[

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

喝鸡汤

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值