最近几年transformer越来越火,在NLP、CV等领域都取得了很大的成功。这篇文章作者利用了transformer能够处理无序数据的特点,将transformer应用到点云的处理上。它的想法是基于最原始的transformer那篇文章(Attention Is All Your Need),关于那篇文章的解读可以参考:庖丁解牛Transformer原理。
论文的整体架构如下图1所示,整体上跟pointnet那篇差不多(左边是一个encoder结构,右边是一个decoder),不同的地方主要在于encoder。对于encoder点云数据先经过一个Input Embedding模块,然后通过一系列的Attention模块并且cat每个模块的输出,最后再经过一个全连接层得到点云的特征。对于decoder来说,根据task不同其结构不同,其结构跟pointnet那篇基本上一样,所以这里不做介绍。

图1 PCT整体架构
下面再来看看作者是怎么设计encoder的,根据网络结构由简入繁,作者把encoder分为三个版本:NPCT(Naive PCT)、SPCT(Simple PCT)、PCT。

本文探讨了如何将Transformer应用于点云处理,从NaivePCT到PCT的演进,包括Offset-Attention和neighborembedding的引入,提升了点云特征学习的性能。实验结果表明PCT在分类、法向量估计和分割任务中取得SOTA。
最低0.47元/天 解锁文章
3291

被折叠的 条评论
为什么被折叠?



