点云BEV融合！PTTR++：3D点云单目标跟踪新SOTA（南洋理工）

原创

已于 2022-11-02 20:42:03 修改 · 2.3k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #算法 #python #计算机视觉 #机器学习

于 2022-10-30 09:00:48 首次发布

随着激光雷达在自动驾驶中普及，3D目标跟踪受关注。论文提出PTTR框架，含Relation - Aware Sampling、Point Relation Transformer等模块，实现粗到细跟踪。还设计了PTTR++，融合点云和BEV表示。大量实验表明，方法实现了卓越的3D跟踪精度和效率。

后台回复【目标跟踪综述】获取单目标、多目标、基于学习方法的领域综述！

论文链接：https://arxiv.org/pdf/2208.05216.pdf

代码链接：https://github.com/Jasonkks/PTTR

摘要

随着激光雷达传感器在自动驾驶中的普及，3D目标跟踪受到了越来越多的关注。在点云序列中，3D目标跟踪旨在预测给定目标模板的连续帧中目标的位置和方向。由于transformer的成功，论文提出了Point Tracking TRansformer（PTTR），其可以通过transformer操作以从粗到细的方式有效预测高质量的3D跟踪结果。PTTR包含三个新颖的设计模块：1）与随机抽样不同，PTTR设计了Relation-Aware Sampling，以在subsampling期间保留给定模板的相关点云；2）提出了一种Point Relation Transformer，用于在模板与搜索区域之间实现有效的特征聚合和特征匹配；3）基于粗跟踪结果，采用了一种新的预测细化模块，通过局部特征池化得到最终的细化预测结果。此外，由于点云的鸟瞰图（BEV）在捕获目标运动方面的良好特性，论文进一步设计了一个名为PTTR++的更高级框架，该框架将点云视图和BEV表示结合起来，以利用它们的互补作用生成高质量的跟踪结果。PTTR++以较低的计算开销大幅提高了PTTR的跟踪性能。对多个数据集的大量实验表明，本文提出的方法实现了卓越的3D跟踪精度和效率。

PTTR: 3D POINT CLOUD TRACKING WITH TRANSFORMER

概览

给定3D点云序列，3D目标跟踪旨在通过预测基于模板点云的边界框来估计每个点云观测中的目标位置和朝向，即搜索点云。为此，论文提出了PTTR，一种新的coarse-to-fine的三D目标跟踪框架。如图2所示，PTTR通过三个主要阶段实现3D点云跟踪：

1）特征提取：遵循前任的方法[16、15、18、19]，论文使用PointNet++[2]作为主干，从模板和搜索点云中提取多尺度特征。然而，在原始PointNet++中的随机二次采样期间可能会发生重要信息丢失。因此，论文提出了一种新的Relation-Aware Sampling方法，通过利用relation-aware特征相似性来保留更多与给定模板相关的点云。
2）基于注意力的特征匹配：与以往通常使用余弦相似性[15，16，18]或线性相关[19]来匹配模板和搜索点云的方法不同，论文利用新的注意操作并提出了Point Relation Transformer（PRT）。PRT首先使用自注意力自适应地分别聚合模板和搜索区域的点云特征，然后进行cross-attention的特征匹配。根据PRT的输出生成粗略预测。
3）预测细化：粗预测通过轻量级预测细化模块进一步细化，从而形成coarse-to-fine的跟踪框架。基于粗预测，首先对搜索中的种子点云进行点云偏移操作，以估计模板中相应的种子点云。然后分别对来自两个点云的种子点云使用局部池化操作，然后将池化特征与来自PRT的匹配特征concat起来，以估计最终预测。

Relation-Aware Feature Extraction

作为最成功的主干之一，PointNet++[2]引入了一种具有多距离最远点云采样（D-FPS）和ball query操作的分层结构，有效地利用了多尺度点云特征。大多数现有的3D跟踪方法[16,18,19]均使用PointNet++进行特征提取。但是其在目标跟踪方面有一个不容忽视的缺点：PointNet++中使用的D-FPS采样策略倾向于生成均匀分布在欧氏空间中的随机样本，进而导致采样过程中的重要信息丢失。特别是，搜索点云通常比模板点云大得多，因此D-FPS采样不可避免地保留了大量背景点匀，并导致感兴趣目标的点云分布稀疏，这进一步增加了后续使用特征匹配的模板搜索的难度。为了缓解这个问题，以前的方法使用随机点云采样[16，18]或特征最远点云采样（F-FPS）[3]。然而，采样过程中大量前景信息丢失的问题并没有完全解决。

Relation-Aware Sampli