Superpoint Transformer for 3D Scene Instance Segmentation

Abstract
大多数现有方法通过扩展用于3D对象检测或3D语义分割的模型来实现3D实例分割。然而,这些非直接方法有两个缺点:1)不精确的边界框或不令人满意的语义预测限制了整个3D实例分割框架的性能。2) 现有方法需要耗时的中间聚合步骤。为了解决这些问题,本文提出了一种基于Superpoint Transformer的端到端3D实例分割方法,称为SPFormer。它将点云中的潜在特征分组为superpoint,并通过查询向量直接预测实例,而不依赖对象检测或语义分割的结果。该框架中的关键步骤是一个带有transformer的新型查询解码器,它可以通过叠加交叉关注机制捕获实例信息,并生成实例的叠加掩码。通过基于叠加掩码的二分匹配,SPFormer可以实现网络训练,而无需中间聚合步骤,从而加快了网络速度。在ScanNetv2和S3DIS基准测试上的大量实验验证了我们的方法简洁而有效。值得注意的是,就mAP而言,SPFormer在ScanNetv2隐藏测试集上超过了最先进的方法4.3%,同时保持了快速的推断速度(每帧247毫秒)。

Introduction
3D场景理解被视为许多应用的基本要素,包括增强虚拟现实(Park等人2020)、自动驾驶(Zhou等人2020)和机器人导航(Xie等人2021)。通常,实例分割是3D场景理解中的一项具有挑战性的任务,其目的不仅是检测稀疏点云上的实例,还为每个实例提供清晰的遮罩。现有最先进的方法可分为基于提议的方法(Y ang等人2019年;Liu等人2020年)和基于分组的方法(Jiang等人2020年;Chen等人2021;Liang等人2021;Vu等人2022年)。基于建议的方法将3D实例分割视为自上而下的管道。他们首先生成区域建议(即边界框)如图1(b)所示,然后预测所提出区域中的实例掩码。Mask RCNN(He等人,2017)在2D实例分割领域的巨大成功鼓励了这些方法。然而,由于领域差距,这些方法在点云上举步维艰。在三维场中,边界框具有更大的自由度(DoF),增加了拟合的难度。此外,点通常只存在于物体表面的部分,这导致物体几何中心无法检测。此外,低质量区域建议会影响基于盒的二分匹配(Y ang等人2019),并进一步降低模型性能。相反,基于分组的方法采用自下而上的管道。他们学习逐点语义标签和实例中心偏移。然后,他们使用偏移点和语义预测聚合到实例中,如图1(c)所示。在过去两年中,基于分组的方法在3D实例分割任务中取得了很大的改进(Liang等人,2021;Vu等人,2022年)。然而,也有几个缺点:(1)基于分组的方法依赖于它们的语义分割结果,这可能导致错误的预测。将这些错误预测传播到后续处理会抑制网络性能。(2) 这些方法需要中间聚合步骤,增加训练和推理时间。聚合步骤独立于网络培训和缺乏监督,这需要额外的细化模块。通过上面的讨论,我们自然会想到一个超级框架,它可以避免缺点,同时从两种类型的方法中获益。在本文中,我们提出了一种基于Superpoint Transformer的端到端两阶段3D实例分割方法,称为SPFormer。SPFormer将点云中自下而上的潜在特征分组为叠加点,并通过查询向量作为自上而下的管道提出实例。在自底向上分组阶段,使用稀疏的3D U-net来提取自底向上地逐点特征。提出了一个简单的叠加点池层,将潜在的逐点特征分组为叠加点。叠加点(Landrieu和Simonovsky 2018)可以利用几何规律来表示同质相邻点。与之前的方法(Liang等人,2021)相比,我们的叠加特征是潜在的,避免了通过非直接语义和中心距离标签来监督特征。我们将叠加点视为3D场景的潜在中级表示,并直接使用实例标签来训练整个网络。在自顶向下的建议阶段,提出了一种新的带有变换器的查询解码器。我们利用可学习的查询向量从潜在的叠加特征中提出实例预测,作为自上而下的管道。可学习查询向量可以通过叠加交叉关注机制获取实例信息。图1(d)说明了这个过程,椅子的部分越红,查询向量的关注度就越高。通过携带实例信息和叠加特征的查询向量,查询解码器直接生成实例类、分数和掩码预测。最后,通过基于叠加点掩码的二分匹配,SPFormer可以实现端到端的训练,而无需耗时的聚合步骤。此外,SPFormer没有像非最大抑制(NMS)那样的后处理,这进一步加快了网络速度。SPFormer在ScanNetv2和S3DIS基准测试上都达到了最先进的水平。特别是,SPFormer在定性和定量测量以及推理速度方面同时超过了最先进的方法。具有新颖流水线的SPFormer可以作为3D实例分割的通用框架。总之,我们的贡献如下:
•我们提出了一种新的端到端两阶段方法,名为SPFormer,该方法在不依赖对象检测或语义分割结果的情况下,利用潜在的重叠特征来表示3D感觉。
•我们设计了一个带有转换器的查询解码器,其中可学习的查询向量可以通过叠加交叉注意力来捕获实例信息。使用查询向量,查询去编码器可以直接生成实例预测。
•通过基于叠加点掩码的二分匹配,SPFormer可以实现网络训练,而无需耗时的中间聚合步骤,并且在推理过程中无需复杂的后处理。

在这里插入图片描述
SPFormer的总体架构包括两个阶段。在自下而上的分组阶段,稀疏3D U-net从输入点云P中提取逐点特征,然后叠加池层将同质的相邻点分组为叠加特征S。在自上而下的建议阶段,查询解码器被分成两个分支。实例分支通过变换器解码器获得查询向量特征Z’掩码分支提取掩码感知特征Smask。最后,预测头生成实例预测,并在训练/推理期间将其输入到二分匹配或排序中

!在这里插入图片描述

### 基于点云的3D场景图生成中的Transformer应用 #### 背景介绍 在基于点云的3D场景图生成领域,Transformer作为一种强大的序列建模工具被广泛研究并应用于处理复杂的几何数据结构。通过引入自注意力机制(Self-Attention),Transformer能够捕捉全局依赖关系,在节点特征提取和边特征生成方面表现出显著优势。 #### Transformer的核心作用 Transformer的主要功能在于其能够有效地学习点云中不同部分之间的相互关系。具体而言,它通过对输入点云进行编码来捕获局部和全局上下文信息[^2]。这种能力使得Transformer非常适合用于构建高质量的3D场景图表示。 #### Graph Embedding Layer (GEL) 和 Semantic Injection Layer (SIL) 在提到的研究工作中,模型设计包含了两个重要组件——Graph Embedding Layer(GEL)以及Semantic Injection Layer(SIL)。 - **Graph Embedding Layer**: 此层负责将原始点云转换成具有语义意义的嵌入向量形式。这些嵌入不仅保留了几何特性还融合了来自其他传感器(如RGB图像)的信息。 - **Semantic Injection Layer**: 这一层进一步增强了由GEL产生的初始嵌入,注入额外的高层次语义理解到每一个节点及其连接边上,从而提升最终预测准确性。 #### Node and Edge Feature Generation 对于节点与边缘特征生成过程来说,利用Transformer架构可以实现更精细且全面的关系表达。例如,在给定一组三维坐标作为输入时,经过多头注意力计算后得到的新表征既考虑到了单个点的重要性也兼顾整体分布模式的影响。 以下是简化版代码示例展示如何使用PyTorch框架搭建基本版本的Point Cloud Transformer: ```python import torch.nn as nn import torch class PointCloudTransformer(nn.Module): def __init__(self, d_model=512, nhead=8, num_encoder_layers=6): super(PointCloudTransformer, self).__init__() encoder_layer = nn.TransformerEncoderLayer(d_model=d_model, nhead=nhead) self.transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=num_encoder_layers) def forward(self, src): out = self.transformer_encoder(src.permute(1,0,2)) return out.permute(1,0,2) # Example usage model = PointCloudTransformer() input_tensor = torch.rand((32, 1024, 512)) # Batch size of 32 with 1024 points each having a dimensionality of 512 output = model(input_tensor) print(output.shape) # Should output the same shape as input tensor ``` 此段脚本定义了一个简单的变压器网络实例化对象`PointCloudTransformer`, 它接受批量大小为32的数据集,其中每个样本包含1024个维度均为512维的点位信息,并返回相同形状的结果张量。 #### 总结 综上所述,Transformers因其卓越的能力而成为解决复杂任务的有效手段之一,特别是在涉及大量离散单元间交互分析的情况下更是如此。它们帮助我们更好地理解和描述真实世界环境下的物体布局情况,推动了计算机视觉及相关学科的发展进程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值