Global Tracking Transformers
论文地址:https://arxiv.org/abs/2203.13250
代码: https://github.com/xingyizhou/GTR
目录
摘要
我们网络以短序列帧作为输入并生成目标的全局轨迹。核心组件是一个全局跟踪Transformer,它对序列中所有帧的对象进行操作。它对所有帧中的目标特征进行编码,并使用轨迹查询将其分组为轨迹。轨迹查询是来自单帧的目标特征。我们全局跟踪器不需要中间成对分组或组合关联,并且可以与对象检测器联合训练 。
更重的是,我们的框架无缝地集成到最先进的大词汇量检测器中,以跟踪任何对象。
1、介绍
多目标跟踪旨在发现并跟踪视频流中所有目标。它是移动机器人等领域的基本构件,自治系统必须穿越由其他移动代理填充的动态环境。近年来,随着深度学习和目标检测技术的发展,基于检测的跟踪已经成为主流跟踪模式。
TBD范式将跟踪减少为两步:检测和关联。首先,目标检测器独立地在视频流的每个帧中查找潜在对象。第二,关联步骤通过时间链接检测。本地跟踪器主要考虑贪婪的两两关联 ,它们根据位置或身份特征维护每条轨迹的状态 ,并根据当前帧检测与每条轨迹上一可见状态相关联 。这种两两关联是有效的,但缺乏一个整体轨迹的明确模型,有时会遇到严重的遮挡或强烈的外观变化。其他全局跟踪器在成对关联上运行基于图的离线组合优化。它们可以解决不一致的分组检测,并且更加健壮,但速度较慢,通常与检测器分离。
在这项工作中,我们展示了如何将全局跟踪(图1b)表示为深度网络中的几层(图2)。 我们的网络直接输出轨迹,因此避开了成对关联和基于图的优化。我们证明,探测器[ Mask r-cnn,Faster R-CNN,Objects as points]可以通过Transformer层来增强,从而变成联合探测器和跟踪器。我们的全球跟踪变换器(GTR)对多个连续帧的检测进行编码,并使用轨迹查询将其分组为轨迹。 查询是非最大抑制后单个帧(例如在线跟踪器中的当前帧)的检测特征,并由GTR转换为轨迹。每个轨迹查询通过使用softmax分布为其分配来自每个帧的检测来生成单个全局轨迹。因此,我们模型的输出是检测及其随时间的关联。
训练时,我们使用GT真实轨迹及其图像级边界框监督学习我们的GTR输出。在推理过程中,我们以滑动窗口的方式运行GTR,时间大小适中,为32帧,并在线链接窗口之间的轨迹。该模型在时间窗口内是端到端可微的。
我们的框架是由transformer模型[49]最近在计算机视觉[14,25,47,67]和目标检测[8,53]方面的成功所推动的。我们在一个时间窗口内执行轨迹查询和目标特征之间的交叉注意,并显式地监督它生成一个查询到检测分配。每个分配
直接关联全局轨迹。与基于Transformer的检测器【Trackformer、Transtrack、End-to-end video instance segmentation with transformers. 】不同,它将查询学习为固定参数,而我们的查询来自现有的检测功能,并与图像内容相适应。此外,我们的GTR对检测到的目标而不是原始像素进行操作 。
我们的框架是端到端可培训的,并且易于与最先进的目标检测器集成。
2、相关工作
局部多目标跟踪:许多受欢迎的跟踪器在局部贪婪地进行追踪【Tracking without bells and whistles、Tracking without bells and whistles、JDE、Transcenter、Fairmot、Tracking objects as points】。它们维护一组已经确认的轨迹,并基于成对目标轨迹距离度量将新检测到的目标链接到轨迹。 SORT和DeepSORT使用卡尔曼滤波跟踪并在每一步中更新潜在位置或深层特征。[Tracking without bells and whistles]将轨迹作为建议提供给检测器,并直接传播跟踪ID。CenterTrack在现有轨迹上设置检测条件,并使用预测的位置关联对象。TransCenter[61]在CenterTrack的基础上加入了可变形DETR。JDE[54]和FairMOT[66]将检测器与实例分类分支一起训练,并通过类似于SORT[5]的成对ReID特征进行关联。STRN学习了一个考虑了空间和时间线索的专用关联特征,但再次执行成对关联。相比之下,我们不依赖于成对关联,而是通过Transformer与整个时间窗口中的所有对象关联。
全局跟踪: 传统的跟踪器首先离线检测对象,并考虑所有帧之间的对象关联作为组合优化问题。Zhang等人[65]将跟踪描述为图上的最小代价最大流问题,其中节点是检测,边是有效关联。MPN[6]简化了图形构造,并提出了一种执行图形优化的神经求解器。LPC[12]还考虑了图上的一个分类模块。Lif T[44