Online Multiple Object Tracking with Cross-Task Synergy
论文地址:https://arxiv.org/abs/2104.00380
代码:https://github.com/songguocode/TADAM
收录于CVPR2021
总体框架
0、摘要
现代在线多目标跟踪方法通常侧重于两个方向来提高跟踪性能。一种是基于来自先前帧的跟踪信息来预测输入帧中的新位置,另一个是通过生成更多有区别的身份嵌入来增强数据关联。有些作品将两个方向结合在一个框架内,但将它们作为两个单独的任务来处理,因此几乎没有互利。本文提出了一种新的位置预测和嵌入关联协同的统一模型。这两项任务由时间感知目标注意和干扰注意以及身份感知记忆聚合模型联系起来。 具体来说,注意力模块可以使预测更多地集中在目标上,而较少地集中在干扰物上,因此可以相应地提取更可靠的嵌入来进行关联。另一方面,这种可靠的嵌入可以通过记忆聚合来增强身份识别,从而增强注意力模块并抑制漂移。这样,实现了位置预测和嵌入关联之间的协同和对遮挡的强鲁棒性。
1、介绍
MOT旨在定位目标,同时保持其身份,以形成跨视频帧的轨迹。最近在MOT领域的研究大多遵循通过检测进行跟踪的范例,这将MOT问题分为两个独立的步骤。检测首先在每帧中独立获得,然后通过数据关联跨帧链接形成轨迹,在关联过程中通常采用身份嵌入来区分对象。这种两步过程直观地揭示了提高跟踪性能的两种方法。一个是增加检测,另一个是通过嵌入增强数据关联。
大多数现有的在线方法通常只解决这两个方面中的一个,以获得更好的跟踪结果,尽管事实上有一个共同的误差源,即遮挡,会影响这两个方面。由于目标重叠,意外的遮挡通常会导致检测失败,并增加数据关联的难度。许多在线跟踪方法通过预测被跟踪目标的新位置来填补遮挡期间检测的空白,尽管许多研究集中于在整个遮挡都有产生更可区分的嵌入来关联。虽然最近的一些工作试图同时解决这两个问题,但位置预测和嵌入关联被视为两个独立的任务。如何让他们互惠互利还没有很好的探索。
常见的预测方法很少考虑物体之间的相互作用,因此在处理遮挡时,位置预测本身不够强。 在较严重的遮挡下进行预测通常会导致边界框漂移,目标的预测位置开始跟随相邻的对象。然后,由于错误预测的边界框,为关联提取的嵌入变得恶化。这可能会导致在连续帧上传播的关联错误。在这种情况下,做出预测会损害关联嵌入。同时,单独改进嵌入只能减少关联阶段的错误,这无助于直接防止位置预测错误。
在本文中,我们提出了一个统一的模型,在这个模型中,位置预测和嵌入关联以互利的方式联合优化,通过增强对遮挡的鲁棒性来提高跟踪性能。为了带来真正的协同效应,我们让一个任务参与到另一个任务的过程中。这两项任务通过一个由目标注意模块和干扰注意模块以及辨别性记忆聚合组成的链接连接起来。针对关联优化的身份嵌入不仅用于计算相似性,还用于产生对目标的关注以及抑制通过注意模块的漂移。以这种方式,位置预测配备