本文来自一篇2021的论文,论文简要回顾了现有的SOTA模型和MOT算法、对多目标跟踪中的深度学习进行了讨论、介绍了评估方面的指标、数据集和基准结果,最后给出了结论。
本文来自公众号CV技术指南的技术总结系列
关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。
视频监控中的多目标跟踪(MTT)是一项重要而富有挑战性的任务,由于其在各个领域的潜在应用而引起了研究人员的广泛关注。多目标跟踪任务需要在每帧中单独定位目标,这仍然是一个巨大的挑战,因为目标的外观会立即发生变化,并且会出现极端的遮挡。除此之外,多目标跟踪框架需要执行多个任务,即目标检测、轨迹估计、帧间关联和重新识别。已经提出了各种方法,并做出了一些假设,以将问题约束在特定问题的上下文中。本文对利用深度学习表征能力的MTT模型进行了综述。
多目标跟踪分为目标检测和跟踪两个主要任务。为了区分组内对象,MTT算法将唯一ID与在特定时间内保持特定于该对象的每个检测到的对象相关联。然后利用这些ID来生成被跟踪对象的运动轨迹。
目标检测的精度决定了目标跟踪系统的有效性。MTT模型的精度受比例变化、频繁的id切换、旋转、光照变化等因素的影响很大。图1显示了MTT算法的输出。此外,多目标跟踪系统中存在背景杂波、后移、航迹初始化和终止等复杂任务。为了克服这些问题,研究人员利用深度神经网络,提出了多种策略。
MTT算法的分类
根据对象的初始化方式,MOT实现可分为基于检测(DBT)或无检测跟踪(Detection free tracking, DFT)。然而,MTT模型是围绕基于检测的训练进行标准化的,其中检测(识别帧中的对象)是作为预跟踪步骤来检索的。由于DBT中需要一个目标检测器来识别目标,因此性能在很大程度上取决于检测器的质量,因此选择一个检测框架是至关重要的。
无检测跟踪(DFT)
检测器的输出通常被用作跟踪器的输入,跟踪器的输出被提供给运动预测算法,该算法预测物体在接下来的几秒钟内将移动到哪里。然而,在无检测跟踪中,情况并非如此。基于DFT的模型要求必须在第一帧中手动初始化固定数量的对象,然后必须在随后的帧中对这些对象进行定位。
DFT是一项困难的任务,因为关于要跟踪的对象的信息有限,而且这些信息不清楚。结果,初始边界框仅与背景中的感兴趣对象近似,并且对象的外观可能随着时间的推移而急剧改变。
在线跟踪(Online tracking)
在线跟踪算法,也称为顺序跟踪,根据过去和现在的信息生成对当前帧的预测。这种类型的算法以分步方式处理帧。在一些应用中,例如自动驾驶和机器人导航,这些信息是必不可少的。
批次跟踪(Batch tracking)
为了确定给定帧中的对象身份,批次跟踪(离线跟踪)技术使用前一帧的信息。它们经常使用全局数据,从而提高了跟踪质量;但是,由于计算和内存的限制,并不总是能够一次处理所有帧。
深度学习算法
大多数算法共有的主要步骤如下:
目标检测(Object Detection)阶段:通过分析输入帧,使用边界框在一系列帧中定位目标。
运动预测(Motion Prediction)阶段:分析检测以提取外观、运动或交互特征。
亲和度(Affinity)计算阶段:将提取的特征用于检测对之间的相似度/距离计算。
关联(Association)阶段:通过向对应于相同目标的检测提供相同的ID,在关联中利用相似性/距离度量。
检测阶段
检测阶段主要用的是目标检测中的一些算法。
YOLO单卷积神经网络在一次评价中直接从全图中预测多个bounding boxes和类概率,在全图上训练并直接优化检测性能,同时学习目标的泛化表示。然而,YOLO对边界框预测施加了严格的空间约束,限制了模型可以预测的相邻项目的数量。成群出现的小物件,如鸟类,对于此模型也同样有问题。
faster R-CNN,一个由全深度CNN组成的单一统一对象识别网络,提高了检测的准确性和效率,同时减少了计算开销。该模型集成了一种在区域方案微调之间交替的训练方法,使得统一的、基于深度学习的目标识别系统能够以接近实时的帧率运行,然后在保持固定目标的同时微调目标检测。
在某些监视画面中,遮挡是十分频繁,以至于不可能像在人类的情况下那样检测对象的整个形状。
为了解决这个问题,Khan等人提出了经过训练仅检测头部位置的时间一致性模型(temporal consistency model)。同样,一些技术也被探索到只跟踪头部位置,而不是整个身体形状。
Bewley在EL29上提出了framework SORT,以利用基于CNN的检测的力量,在MOT前景中,它在速度和准确性方面都取得了同类最好的性能,它专注于帧到帧的预测和关联。通过将从聚合信道特征(Aggregated Channel Features, ACF)获得的检测替换为Faster RCNN计算的检测,基于卡尔曼滤波器和匈牙利算法的体系结构,它变得能够被评为性能最好的。在某些情况下,CNN在检测步骤中被用于构建目标边界框之外的其他目的。
对于多目标(如汽车)的跟踪,结合鲁棒检测和二分类器的新策略,对于多车辆的鲁棒和精确识别,Min提出了升级的ViBe。当ViBe算法被用来识别汽车时,CNN用它来消除假阳性。它能有效地抑制动态噪声,并能快速去除鬼影和物体的残留阴影。
运动预测(Motion Prediction)阶段
深度模型用于研究诸如时间和空间注意图或时间顺序之类的MOT特征时,性能可以得到改善。一些基于端到端深度学习的模型,不仅可以提取外观描述符的特征,还可以提取运动信息的特征。
Wang等人提出了最早在MOT管道中应用DL的方法之一。该系统充分利用了单目标跟踪器的优点,在不影响计算能力的前提下解决了由于遮挡造成的漂