Leveraging Shape Completion for 3D Siamese Tracking
这是CVPR2019录用的一篇三维目标跟踪文章
摘要
点云由于其稀疏性而难以处理,因此自动驾驶汽车更多地依赖外观属性,而不是纯粹的几何特征。但是,3D LIDAR感知可以在充满挑战的光线或天气条件下为城市导航提供关键信息。在本文中,作者研究了激光雷达点云三维目标跟踪中形状补全的通用性。并且作者发现,三维物体跟踪和三维形状补全是相辅相成的。学习更有意义的潜在表达可以显示更好地区分能力,从而提高跟踪性能。在KITTI跟踪数据集使用上汽车3D 边界框测试,三维目标跟踪的成功率为76.94%,精度为81.38%,形状补全正则化使得两种指标都提高了3%。
论文链接:https://arxiv.org/abs/1903.01784
代码链接:https://github.com/SilvioGiancola/ShapeCompletion3DTracking
主要贡献
在这项工作中,Silvio Giancola等提出了一种纯粹基于LIDAR的在线3D目标跟踪方法。首先,利用Achlioptas等人提出的形状补全网络,将从稀疏点云计算得到的几何特征送入孪生网络中创建潜在表示。并且利用余弦相似度将部分目标点云匹配到模型形状。然后,通过自动编码器网络对编码进行正则化,以生成具有几何意义的潜在表示。作者期望通过使用来自给定对象的语义几何信息来丰富潜在表示,从而改善跟踪性能。
当前,跟踪中面临的主要挑战涉及(a)相似性度量,(b)模型更新和(c)遮挡处理。作者提出的3D跟踪器从三个层面解决了以上问题,通过(a)使用孪生网络,适用于处理3D LIDAR点云,(b)利用形状不变性通过及时聚合其形状来生成更完整的模型,以及(c)强制我们的模型通过形状补全理解形状,而不受遮挡影响。
本文的主要贡献是:
(i)据我们所知,提出了第一个应用于点云而非图像的3D孪生跟踪器。
(ii)建议对孪生网络的潜在空间进行正则化,使其与形状补全网络的潜在空间类似。
(iii)证明了使用语义信息对网络进行正则化会得到更好的区分和跟踪效果。
算法框架:
图1.跟踪模型将孪生网络与自动编码器结合在一起。
作者提出了一种3D孪生跟踪器,其潜在空间具有正则化功能。 跟踪器被正则化以学习包含语义上有意义的信息的编码。 网络概述如图1所示。
一、孪生追踪器
3D孪生跟踪器将输入点云(tracklet)的序列作为输入,在其中存在给定的目标,以及与该目标在第一帧中的位置相对应的初始3D 边界框。对于在时间t的帧,一组候选形状被编码为潜矢量,并与模型形状中的潜在矢量进行比较。选择最佳候选作为当前帧中的目标,并相应地更新模型形状。
图2. 编码器以N = 2048点的点云作为输入。 使用具有ReLU和BN的3层一维CNN将点云编码为K维(K = 128)潜在矢量。
编码。编码器Φ()受到Achlioptas等人关于完成补全工作的启发。该编码器由3层一维卷积组成,其后是ReLU层和BN层,卷积核大小为[64、128,K],如图2所示。最后一个BN层的输出后经过最大池化以获得K维潜在矢量。并且当K = 128时,在计算效率,潜在空间紧凑性和跟踪性能之间提供了最佳平衡。通过随机丢弃或复制点,对网络的输入进行预处理,使其具有N = 2048点,因此在训练中使用小批处理。
相似度指标。编码器Φ()从点云x提取潜在表示z。为了比较候选形状和模型形状,根据等式(1)测量它们各自的潜矢量和之间的余弦相似度。
跟踪损失。对于在训练中使用的任何给定框架,模型形状指定为通过将所有帧的目标的真实点云级联而获得。根据等式(2),作者训练了孪生网络以回归候选形状和模型形状之间距离的函数。候选形状和模型形状的姿势由物体在平面上的3个自由度(tx,ty,α)来确定。距离d(,)为参数化姿势之间的L2-范数的差异。角度α(以度为单位)的权重为1,与tx和ty(以米为单位)具有相同的比例。ρ()为µ = 0,σ= 1的高斯函数。ρ()的目的是软化正样本和负样本之间的距离。 ρ()在距离为零时取值为1,并随着距离的增加而衰减。然后,使用MSE损失对相似性度量CosSim(·,·)进行回归,如公式(2)所示。最小化这种损失鼓励编码器将部分形状和完整形状之间的相似度提高到相同。
2、形状补全正则化
重要的是要正则化孪生网络,以便将潜在的形状生成特征嵌入到潜在表示中,这对区分很有用。这样的嵌入有助于将训练中未发现的情况推广到一般情况。正则化强制将孪生网络的潜在空间置于形状表示空间内。这样的表示空间嵌入了宝贵的语义特征,这些特征定义了要跟踪的目标,并且结构紧凑,有意义且有效。
解码。解码器Ψ()受Achlioptas等人采用的形状补全网络的启发。解码器由两个全连接层组成,这些层将K = 128维的潜矢量解码为M x3维度的特征,这些值表示重构形状具有M个 3D点。使用M = 2048和大小为1024的隐藏层组成的网络总共6.4M参数。另外,Achlioptas等解码为更密集的张量,这会在解码器网络中需要更多的参数数量。
补全损失。孪生网络添加一个补全损失作为正则化器,方法是通过强制潜在表示来保留被跟踪目标的语义信息,从而提高网络的性能。虽然其他工作使用EMD的距离比较模型形状和解码的模型形状,但作者使用倒角距离。
跟踪损失使编码的局部形状类似于它们各自的编码模型,而补全损失使编码的模型保留语义信息以使其能够解码。因此,该正则化用于强制由孪生网络学习的潜在空间来保存有意义的形状语义信息。
3、训练
使用ShapeNet通过从“汽车”类别中提取5997个样本来对编码器-解码器网络Ψ(Φ())进行预训练。通过最小化跟踪损失和完成损失来微调模型。首先,对于给定的运动轨迹中的所有帧,裁剪和居中位于目标的3D真实边界框内的点。然后,我们将裁剪并居中的目标点云连接起来,以生成对齐的模型形状。在时间t,围绕3D真实边界框内的点云,裁剪了一组C个候选边界框,以创建候选形状。候选边界框是从围绕当前物体的真实边界框的三个平面自由度(tX,tY,α)的多元高斯分布中采样的。
模型形状和候选形状集都被编码为它们各自的潜在表示和。候选者的潜在表示与模型潜在表示之间的余弦相似度是根据等式(1)计算的。根据等式(2)将相似性分数回归到它们的相对高斯距离。
同时,将模型形状自动编码,并且将模型形状与编码形状之间的倒角损失最小化,如公式(3)所示。注意,将模型形状xˆ自动编码到自身中,而不是像对形状补全那样对候选形状进行编码。这将使潜在矢量解码为可获得的最完整的汽车形状,即模型形状。
如公式(4)所述,两个损失共同最小化,补全损耗由λcomp加权。
4、测试
在线跟踪,逐帧推断3D运动轨迹。运动轨迹的第一个边界框中包含的形状用于初始化模型形状。通过在时间t处查看帧中的一组候选形状并将其与模型形状进行比较来跟踪对象。具有最大余弦相似度得分的候选者被选择为该帧的目标。然后通过将选定的候选形状附加到模型形状来进行更新。此更新步骤使模型对漂移敏感,因为选择不当的候选框会导致模型变差,随后会选择较差的模型。在2D孪生网络跟踪中会遇到相同的问题,通常通过不更新模型来解决。但是,作者发现当模型在每一帧更新时,模型的性能会更好。
穷举地在三个自由度中搜索候选者会产生很高的计算成本。因此,利用穷举搜索的近似来生成候选形状。近似穷举搜索能够通过假设真实边界框将被视为候选目标之一来评估孪生网络的判别性能,就像穷举搜索一样。这是2D跟踪器中的常见做法。详尽搜索是通过使用围绕当前真实边界框为中心的三个自由度(tX,tY,α)的网格生成候选来执行的。在我们的实验中,我们比较了不同的采样方法,例如卡尔曼滤波器,粒子滤波器和高斯混合模型,这些方法将在更现实的环境中为跟踪器提供候选对象。
主要结果
与基准比较。为了比较3D跟踪方法,由于没有针对此特定任务的3D跟踪方法,作者创建了两个基准。将最先进的3D检测方法以及2D跟踪器作为基准。这些基线的结果与使用穷举搜索的最佳模型以及使用Kalman滤波器的最佳模型一起在表5中进行了报告。评估指标同时使用3D BB上的3D IOU和BEV BB上的2D BEV IOU进行报告。
3D检测。对于3D检测基线,我们将AVOD-FPN 检测器与在线匹配算法配对。 AVOD-FPN同时利用激光雷达点云和RGB图像获得3D检测。我们对轨迹中的每一帧都使用检测,并通过逐帧匹配对象来进行逐个跟踪的检测。t帧中的目标选择与t-1帧中跟踪的BB重叠度最高的BB。
2D追踪器。当将其应用于BEV数据时,将其与普及的2D STAPLECA跟踪器进行比较。通过将点投影到地平面中,从运动轨迹中的点云中提取BEV图像。生成的2D轨迹然后被馈送到STAPLECA跟踪器。此方法提供了仅LIDAR跟踪器作为我们方法的合理基准,该方法也仅依赖LIDAR输入。
分析。表5显示了跟踪基线的比较结果。我们的详尽模型的性能优于两个基线,而使用卡尔曼滤波器的模型的性能优于2D跟踪器。
Abstract
Point clouds are challenging to process due to their sparsity, therefore autonomous vehicles rely more on appearance attributes than pure geometric features. However, 3D LIDAR perception can provide crucial information for urban navigation in challenging light or weather conditions. In this paper, we investigate the versatility of Shape Completion for 3D Object Tracking in LIDAR point clouds. We design a Siamese tracker that encodes model and candidate shapes into a compact latent representation. We regularize the encoding by enforcing the latent representation to decode into an object model shape. We observe that 3D object tracking and 3D shape completion complement each other. Learning a more meaningful latent representation shows better discriminatory capabilities, leading to improved tracking performance. We test our method on the KITTI Tracking set using car 3D bounding boxes. Our model reaches a 76.94% Success rate and 81.38% Precision for 3D Object Tracking, with the shape completion regular- ization leading to an improvement of 3% in both metrics.