基于规范映射的自回归3D形状生成
1. 引言
在过去几年里,Transformer不仅在自然语言处理领域占据主导地位,还在各种视觉任务中展现出卓越性能,如图像分类、语义和实例分割以及图像生成等。与卷积神经网络相比,Transformer无需对数据结构做先验假设,能从零开始学习视觉元素间的依赖关系,更灵活且能捕捉序列数据中的长距离依赖,这一特性在高分辨率图像等全局连贯的长序列数据的自回归生成中尤为重要。
然而,将Transformer用于处理结构较少的数据(如原始点云)的自回归生成却鲜有人探索。主要挑战在于这类数据的序列化并非易事,简单地将点云按点排列成序列会破坏形状结构信息,且计算上不可行。若像处理二维图像那样将点云均匀分组排列成序列,学习顺序形状表示也很困难,因为这些形状组合是随机的。
为解决这些问题,我们提出将点云分解为一系列语义有意义的形状组合,再通过自回归模型对其编码以实现点云生成。具体而言,先学习一个映射函数,将每个点云映射到一个共享的规范球体上,通过规范自动编码器和一些自监督目标,确保不同实例的对应部分在映射到规范球体时重叠,从而建立不同实例的密集对应关系。在规范球体上进行分组得到形状组合,每个点云可序列化成交叉不同实例语义对齐的形状组合集。最后,使用这些序列化的点云序列训练向量量化自动编码器(VQVAE),再学习一个Transformer模型来解决点云生成任务。
本文的主要贡献包括:
- 提出一种基于Transformer的新型自回归点云生成模型。
- 引入规范自动编码器和自监督点分组网络,将点云序列化为语义对齐的形状组合序列。
- 训练带有特定组码本的VQVAE,然后使用序列化的点云学习Transformer模型以
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



