【文献翻译】Instance Aware Embedding

原创已于 2022-07-07 17:40:23 修改 · 267 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2021-11-11 16:55:05 首次发布

3D点云实例分割专栏收录该内容

10 篇文章

订阅专栏

本文介绍了一个实例感知模块(IAM)，通过预测空间扩展来选择代表性点，结合边界框和实例标签的损失优化。它在S3DIS实验中展示了高效编码实例上下文和几何信息的能力。方法包括编码上下文、几何信息和聚类，用以提升3D空间物体识别精度。

Network Framework

Instance-Aware Module

我们提出了一个实例感知模块(IAM)，主要用于选择捕获空间实例上下文的代表性点。对于位置为 $x_i, y_i, z_i$ 的点 $p_i$ ，通过上下文检测分支预测点级的偏移量,来表示实例的空间扩展，表示为 ${Δxki，Δyki，Δzki}k=1K\lbrace \Delta x_k^i，\Delta y_k^i，\Delta z_k^i \rbrace ^K_{k=1}$ 。 $p_i$ 预测的实例的代表区域为 $R_i$ ，可以简单表示为:
$Ri={(xi+Δxki，yi+Δyki，zi+Δzki)}k=1KR_i= \lbrace (x_i+\Delta x_k^i，y_i+\Delta y_k^i，z_i+\Delta z_k^i) \rbrace ^K_{k=1}$
其中 $K$ 是代表性点的个数， $i$ 代表第 $i$ 个点。每个点预测的轴向包围盒可以用最小-最大函数 $F$ 表示为 $B_i$ : $B_i=F(R_i)$ .
学习这些代表性区域是由空间边界框和实例分组标签共同驱动的，这样 $R_i$ 就可以紧密地围绕实例。为此，提供了三个损失: $L_{bnd}$ 、 $L_{len}$ 和 $L_{ins}$ (后两个将在下一节讨论)。 $L_{bnd}$ 是为了最大化预测和地面真实之间的边界框的重叠。本文使用3D IoU loss:
$Lbnd=1N∑I=1N1−IoU(GTi,Bi)L_{bnd}=\frac{1}{N} \sum^N_{I=1} 1-IoU(GT_i, B_i)$
式中， $N$ 为点总数， $B_i$ 为第 $i$ 个点的预测包围盒， $GT_i$ 为第 $i$ 个点的三维轴向包围盒地面真值。
在效率方面，我们选择 $K = 18$ ，实例相关区域被定位并成功覆盖空间扩展。

Instance Branch

传统上，实例解码器的输入是下采样的瓶颈点 (bottleneck points) $Pb⊆PP_b \subseteq P$ ，对应的特征表示为 $F_b$ 。这些特征通过几个上采样层逐渐传播到完整的点集。为了在传播过程中对实例上下文进行编码，我们利用 $R_b$ 的有意义的语义区域对瓶颈点进行编码。

Encode Instance-Aware Context

$F_b$ 的表示是通过聚合来自覆盖实例空间范围的 $R_b$ 的信息来增强的。由于这些检测点不一定位于输入点上，因此利用K-NN对 $R_b$ 特征进行插值。然后将插入的特征添加到原始 $F_b$ 中，生成包含局部表示和实例上下文的特征。与每个输入点都需要搜索相邻点的 $ASIS^{[30]}$ 相比，我们的方法效率更高。由于在瓶颈层采用了K-NN, $P_b$ 中的搜索空间比P中的搜索空间小很多，计算开销非常有限。在解码过程中，组合特征逐渐上采样，通过所有点传播实例感知上下文。

Encode Geometric Information

几何信息是识别两个近距离物体的关键。为了学习具有鉴别性的嵌入特征，我们直接将坐标的归一化质心连接到嵌入空间中。考虑点 $p_i$ 预测的质心 $C(B_i)$ ，其中 $C (\cdot)$ 为计算给定边界盒几何质心的函数，最终的每点嵌入特征可表示为 $E^i=Concat(Ei,C(Bi))\hat{E}_i= Concat(E_i, C(B_i))$ ，其中 $E_i$ 为实例分支生成的嵌入特征。此外，为了使具有相同实例标签的点的几何信息保持一致，我们将预测的几何质心从同一实例拉向聚类中心:
$Lcen=1M∑m=1M1Nm∑i=1Nm[∥C(Bi)−μm∥−σv]+2L_{cen}=\frac{1}{M} \sum_{m=1}^{M} \frac{1}{N_m} \sum_{i=1}^{N_m}[ \lVert C(B_i)- \mu_m\rVert - \sigma_v ]^2_+$
其中， $M$ 是实例的个数， $N_m$ 是第 $m$ 个实例的点数， $μ_m$ 是指第 $m$ 个实例的平均预测几何质心。 $x]_+$ 的定义为 $x]_+=max(0,x)$ ， $σv\sigma_v$ 是一个待定的（？loose）裕量。 $L_{cen}$ 的设计目的是迫使额外的几何信息有更少的变化，并为分离相邻的对象提供信息。
信息性的 (informative) 逐点嵌入 $E^n=1N\hat{E}_{n=1}^N$ 用于学习一个距离度量，该度量可以将实例内嵌入拉向集群中心，并将实例中心推离彼此。损失函数的表达式为:
$Lins=1M(M−1)∑a=1M∑b=1,b≠aM[2σd−∥μa−μb∥]+2⏟inter−instance+1M∑i=1M1Nm∑m=1Nm[∥μm−E^m∥−σv]+2⏟intra−instanceL_{ins}=\underbrace{\frac{1}{M(M-1)} \sum^M_{a = 1} \sum^M_{b=1,b \neq a} [2 \sigma _d- \lVert \mu_a - \mu_b \rVert]_+^2}_{inter-instance} + \underbrace{\frac{1}{M} \sum^M_{i = 1} \frac{1}{N_m} \sum^{N_m}_{m=1} [ \lVert \mu_m - \hat E_m \rVert - \sigma _v]_+^2}_{intra-instance}$
其中， $M$ 是实例的个数， $N_m$ 是第 $m$ 个实例的点数， $σd\sigma_d$ 和 $σv\sigma_v$ 是放宽范围的裕量。在训练过程中，第一项将实例聚类推离彼此，第二项将嵌入拉向聚类中心。在推理过程中，采用 Mean-Shift 算法对嵌入空间中的不同实例进行聚类。
总而言之，我们的方法是端到端可训练的，并且受到四种损失的监督。在我们的所有实验中，四种损失的损失权重都设置为1。
$L=L_{fl}+L_{bnd}+L_{cen}+L_{ins}$

S3DIS实验设置

房间分割： $1m \times 1m, \, stride=0.5$
区块采样： $\; points=4096$
点特征：参考 $SGPN^{[1]}$ ，每个点有9维特征： $X,Y,Z,R,G,B,N_X,N_Y,N_Z$
骨干网络：PointNet++
优化器： $\; momentum=0.9$
损失函数的超参数：参考 $σd=1.5ASIS^{[2]}, \; \sigma_v=0.5, \; \sigma_d=1.5$
其他参数： $\; size=16, \; epochs=100, \; learning \; rate=0.001 \; \& \; divided \; by \; 2 \; in \; every \; 300k \; iterations$
分割结果整合： $BlockMerging^{[1]}$