论文解读PointNet(用于点云处理的深度学习框架)

PointNet是第一篇提出直接处理点云数据的深度学习论文,解决了3D体素和多视角投影的局限。模型通过T-Net进行仿射变换学习,确保数据变换不变性,再通过maxpooling处理点云的无序性。实验表明,PointNet在点云分类任务上表现出色,其理论分析证明了模型的普适性和关键点特征提取能力。

        随着最近几年神经网络在CV、NPL等领域取得重大的成果,因此就有学者希望将神经网络应用于3D任务中。在这篇文章(PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation)出现之前,一般在3D任务中用的最多的数据格式是3D体素(3D voxel grids)以及多视角投影,因为3D体素数据格式可以直接用过3D卷积处理数据,多视角投影数据格式可以通过2D卷积处理数据,这两种数据格式都可以利用CNN算子共享权重减少计算量;但是对于3D体素格式来说任务效果以及计算量是取决于它的分辨率的,高分辨当然可以获得不错的效果,但是计算量会几何的增加,对于多视角投影来说往往会损失一些几何信息,比如遮挡。点云数据在3D几何表示中作为一种重要的数据格式,它不存在着3D体素以及多视角投影遇到的那些问题,因此这篇文章提出了一种通用的用于处理点云数据的神经网络框架。

 模型架构

        我们先来看PointNet的整理框架,如下图1所示,可以将框架分成两个部分,第一个部分用于提取全局特征,第二个部分用于点云分类或者点云分割。对于第一个部分,首先是通过一个仿射变换模块(T-Net)对数据做仿射变换,然后由共享的多层感知器(MLP)逐点提取特征,此时数据维度为64,然后又经过一个T-Net模块做放射变换,再由共享的多层感知器逐点提取特征,此时的数据维度为1024,最后再经过max pool得到一个1024维的向量。对于第二个部分,如果是点云分类任务,可以直接将全局特征输入mlp预测scores,如果是点云分割,那么需要将全局特征与每个顶点向量cat起来,然后输入给mlp对每个顶点分类。后面我们逐个介绍为什么作者要设计这些模块。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值