一、摘要
目标跟踪作为计算机视觉的一个重要领域,已经形成了两个独立的研究领域,分别是单目标跟踪(SOT)和多目标跟踪(MOT)。然而,由于两种任务的训练数据集和跟踪对象不同,目现阶段,在一种跟踪场景下设计的算法不能够很好的适应另一种跟踪场景。虽然UniTrack证明了可以使用多头的共享外观模型来处理单个跟踪任务,但它不能使用大规模跟踪数据集训练,并且在SOT上表现不佳。本文就此提出了统一Transformer跟踪器(UTT),提供了一个范例解决不同场景下的跟踪问题。UTT通过了一种Track transformer来跟踪SOT和MOT中的目标,其中利用目标特征和跟踪帧特征之间的相关性来定位目标。最后证明了SOT和MOT任务都可以在该框架内解决,并且可以通过在单个任务的数据集上交替优化SOT和MOT目标来同时端到端训练模型,并使用在SOT和MOT数据集上训练的统一模型在几个基准上进行了广泛的实验。
二、Motivation
1、SOT和MOT算法相互之间相互独立、不能迁移或适配
因为两种任务的训练数据集和跟踪对象不同,目现阶段,在一种跟踪场景下设计的算法不能够很好的适应另一种跟踪场景。而且即便是能够解决这