【文献翻译】Instance Aware Embedding

本文介绍了一个实例感知模块(IAM),通过预测空间扩展来选择代表性点,结合边界框和实例标签的损失优化。它在S3DIS实验中展示了高效编码实例上下文和几何信息的能力。方法包括编码上下文、几何信息和聚类,用以提升3D空间物体识别精度。

Network Framework

Instance-Aware Module

我们提出了一个实例感知模块(IAM),主要用于选择捕获空间实例上下文的代表性点。对于位置为 xi,yi,zix_i, y_i, z_ixi,yi,zi的点 pip_ipi,通过上下文检测分支预测点级的偏移量,来表示实例的空间扩展,表示为 {Δxki,Δyki,Δzki}k=1K\lbrace \Delta x_k^i,\Delta y_k^i,\Delta z_k^i \rbrace ^K_{k=1}{ΔxkiΔykiΔzki}k=1Kpip_ipi 预测的实例的代表区域为RiR_iRi,可以简单表示为:
Ri={(xi+Δxki,yi+Δyki,zi+Δzki)}k=1KR_i= \lbrace (x_i+\Delta x_k^i,y_i+\Delta y_k^i,z_i+\Delta z_k^i) \rbrace ^K_{k=1}Ri={(xi+Δxkiyi+Δykizi+Δzki)}k=1K
其中 KKK 是代表性点的个数,iii 代表第iii个点。每个点预测的轴向包围盒可以用最小-最大函数 FFF 表示为BiB_iBi:Bi=F(Ri)B_i=F(R_i)Bi=F(Ri).
学习这些代表性区域是由空间边界框和实例分组标签共同驱动的,这样 RiR_iRi 就可以紧密地围绕实例。为此,提供了三个损失: LbndL_{bnd}LbndLlenL_{len}LlenLinsL_{ins}Lins (后两个将在下一节讨论)。LbndL_{bnd}Lbnd是为了最大化预测和地面真实之间的边界框的重叠。本文使用3D IoU loss:
Lbnd=1N∑I=1N1−IoU(GTi,Bi)L_{bnd}=\frac{1}{N} \sum^N_{I=1} 1-IoU(GT_i, B_i)Lbnd=N1I=1N1IoU(GTi,Bi)
式中,NNN 为点总数,BiB_iBi 为第iii个点的预测包围盒,GTiGT_iGTi为第iii个点的三维轴向包围盒地面真值。
在效率方面,我们选择 K=18K=18K=18,实例相关区域被定位并成功覆盖空间扩展。

Instance Branch

传统上,实例解码器的输入是下采样的瓶颈点 (bottleneck points) Pb⊆PP_b \subseteq PPbP,对应的特征表示为 FbF_bFb。这些特征通过几个上采样层逐渐传播到完整的点集。为了在传播过程中对实例上下文进行编码,我们利用 RbR_bRb 的有意义的语义区域对瓶颈点进行编码。

Encode Instance-Aware Context

FbF_bFb 的表示是通过聚合来自覆盖实例空间范围的 RbR_bRb 的信息来增强的。由于这些检测点不一定位于输入点上,因此利用K-NN对 RbR_bRb 特征进行插值。然后将插入的特征添加到原始 FbF_bFb 中,生成包含局部表示和实例上下文的特征。与每个输入点都需要搜索相邻点的ASIS[30]ASIS^{[30]}ASIS[30]相比,我们的方法效率更高。由于在瓶颈层采用了K-NN, PbP_bPb 中的搜索空间比P中的搜索空间小很多,计算开销非常有限。在解码过程中,组合特征逐渐上采样,通过所有点传播实例感知上下文。

Encode Geometric Information

几何信息是识别两个近距离物体的关键。为了学习具有鉴别性的嵌入特征,我们直接将坐标的归一化质心连接到嵌入空间中。考虑点 pip_ipi 预测的质心 C(Bi)C(B_i)C(Bi),其中 C(⋅)C(·)C() 为计算给定边界盒几何质心的函数,最终的每点嵌入特征可表示为E^i=Concat(Ei,C(Bi))\hat{E}_i= Concat(E_i, C(B_i))E^i=Concat(Ei,C(Bi)),其中 EiE_iEi 为实例分支生成的嵌入特征。此外,为了使具有相同实例标签的点的几何信息保持一致,我们将预测的几何质心从同一实例拉向聚类中心:
Lcen=1M∑m=1M1Nm∑i=1Nm[∥C(Bi)−μm∥−σv]+2L_{cen}=\frac{1}{M} \sum_{m=1}^{M} \frac{1}{N_m} \sum_{i=1}^{N_m}[ \lVert C(B_i)- \mu_m\rVert - \sigma_v ]^2_+Lcen=M1m=1MNm1i=1Nm[C(Bi)μmσv]+2
其中,MMM 是实例的个数,NmN_mNm 是第 mmm 个实例的点数,μmμ_mμm 是指第 mmm 个实例的平均预测几何质心。[x]+[x]_+[x]+ 的定义为 [x]+=max(0,x)[x]_+=max(0,x)[x]+=max(0,x)σv\sigma_vσv 是一个待定的(?loose)裕量。LcenL_{cen}Lcen 的设计目的是迫使额外的几何信息有更少的变化,并为分离相邻的对象提供信息。
信息性的 (informative) 逐点嵌入 E^n=1N\hat{E}_{n=1}^NE^n=1N 用于学习一个距离度量,该度量可以将实例内嵌入拉向集群中心,并将实例中心推离彼此。损失函数的表达式为:
Lins=1M(M−1)∑a=1M∑b=1,b≠aM[2σd−∥μa−μb∥]+2⏟inter−instance+1M∑i=1M1Nm∑m=1Nm[∥μm−E^m∥−σv]+2⏟intra−instanceL_{ins}=\underbrace{\frac{1}{M(M-1)} \sum^M_{a = 1} \sum^M_{b=1,b \neq a} [2 \sigma _d- \lVert \mu_a - \mu_b \rVert]_+^2}_{inter-instance} + \underbrace{\frac{1}{M} \sum^M_{i = 1} \frac{1}{N_m} \sum^{N_m}_{m=1} [ \lVert \mu_m - \hat E_m \rVert - \sigma _v]_+^2}_{intra-instance}Lins=interinstanceM(M1)1a=1Mb=1,b=aM[2σdμaμb]+2+intrainstanceM1i=1MNm1m=1Nm[μmE^mσv]+2
其中,MMM 是实例的个数,NmN_mNm 是第 mmm 个实例的点数,σd\sigma_dσdσv\sigma_vσv 是放宽范围的裕量。在训练过程中,第一项将实例聚类推离彼此,第二项将嵌入拉向聚类中心。在推理过程中,采用 Mean-Shift 算法对嵌入空间中的不同实例进行聚类。
总而言之,我们的方法是端到端可训练的,并且受到四种损失的监督。在我们的所有实验中,四种损失的损失权重都设置为1。
L=Lfl+Lbnd+Lcen+Lins L=L_{fl}+L_{bnd}+L_{cen}+L_{ins}L=Lfl+Lbnd+Lcen+Lins

S3DIS实验设置

房间分割:1m×1m, stride=0.51m \times 1m, \, stride=0.51m×1m,stride=0.5
区块采样:num  points=4096num \; points=4096numpoints=4096
点特征:参考SGPN[1]SGPN^{[1]}SGPN[1],每个点有9维特征:X,Y,Z,R,G,B,NX,NY,NZX,Y,Z,R,G,B,N_X,N_Y,N_ZX,Y,Z,R,G,B,NX,NY,NZ
骨干网络:PointNet++
优化器:Adam,  momentum=0.9Adam, \; momentum=0.9Adam,momentum=0.9
损失函数的超参数:参考ASIS[2],  σv=0.5,  σd=1.5ASIS^{[2]}, \; \sigma_v=0.5, \; \sigma_d=1.5ASIS[2],σv=0.5,σd=1.5
其他参数:batch  size=16,  epochs=100,  learning  rate=0.001  &  divided  by  2  in  every  300k  iterationsbatch \; size=16, \; epochs=100, \; learning \; rate=0.001 \; \& \; divided \; by \; 2 \; in \; every \; 300k \; iterationsbatchsize=16,epochs=100,learningrate=0.001&dividedby2inevery300kiterations
分割结果整合:BlockMerging[1]BlockMerging^{[1]}BlockMerging[1]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值