【文献阅读笔记】StrongSORT: Make DeepSORT Great Again

原创

已于 2024-02-03 18:38:47 修改 · 2.7k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #算法 #人工智能

于 2023-01-06 09:27:28 首次发布

StrongSORT: Make DeepSORT Great Again

摘要

MOT方法大致可分为tracking-by-detection和joint-detection-association算法。对于跟踪精度而言，tracking-by-detection（先检测，通过相似度如位置、外观、运动等信息来关联检测框得到跟踪轨迹）仍然是最优解决方法。
本文先回溯DeepSORT，从detection、embedding和association几个方面进行改进，改进结果称为StrongSORT，在MOT17和MOT20得到HOTA和IDF1新纪录。
本文还引入了两种轻量级的算法进一步改进跟踪结果：1.提出一种无外观特征的连接模型（AFLink）将短轨迹关联成完整的轨迹；2.用高斯光滑插值（GSI）来弥补缺失的检测目标。将上述两种算法加入StrongSORT，最终跟踪器**StrongSORT++**在MOT17和MOT20获得最高的HOTA和IDF1。

2.Related Works

2.1 Seperate and Joints Trackers

MOT可分为seperate trackers¹²和joints trackers³⁴⁵。Joint trackers是把检测和其他元素如运动、嵌入、关联模型一起联合训练，主要好处在于低计算成本和可观的性能；然而联合跟踪器（joint trackers）面对两个主要的问题：1.不同元素之间的竞争2.用来联合训练元素的数据有限，导致跟踪精度上限受限。因此tracking-by-detection是跟踪的最优方法。
同时，最近一些研究⁶⁷已经放弃了外观信息而仅仅依赖高性能的检测器与运动信息，在MOTChallenge benchmarks⁸⁹上获得高运行速率以及尖端性能。但是在更复杂场景中，丢弃外观特征会导致鲁棒性变差。这篇文章回溯DeepSORT式¹⁰结构并配备更先进的元素进行改进。

2.2 Global Link in MOT

为得到全局信息，用global link model改善跟踪效果。一般用时空或外观信息生成准确但不完整的轨迹，再离线通过挖掘全局信息来连接这些轨迹。本文提出AFLink，只用到运动信息来预测两轨迹之间的连接关系。对于MOT，这是第一个不用外观信息的、轻量级的全局连接模型。

3.StrongSORT

3.1 Review of DeepSORT¹⁰

DeepSORT为两分支结构——外观分支和运动分支。
在外观分支，在数据集MARS上预训练的深度外观描述子（CNN）被用来提取每帧检测目标的外观特征。用特征银行机制存储过去100帧的每条轨迹的外观特征，当有新检测，在特征银行R中第i条轨迹和第j个检测的特征 $f_j$ 之间的最小余弦距离计算公式：此距离被用作关联步骤的匹配代价。

$\begin{equation} d(i,j)=min\{1-f_j^Tf_k^{(i)}| f_k^{(i)}\in R\} \end{equation}$

在运动分支，卡尔曼滤波预测当前帧里轨迹的位置，再用马氏距离计算轨迹与检测之间的时空差距。DeepSORT用此运动距离作为滤除不可能关联的门槛gate。

3.2 Stronger DeepSORT

在DeepSORT进行改进。
1.在外观分支，BoT+ResNeSt50代替CNN得到外观特征；用EMA代替特征银行（feature bank）更新外观状态。

A stronger appearance feature extractor, BoT , is applied to replace the original simple CNN. By taking ResNeSt50 as the backbone and pretraining on the DukeMTMCreID dataset, it can extract much more discriminative features.

2.在运动分支，使用ECC作相机运动补偿；另外，寻常的卡尔曼滤波容易受到低质量检测的影响并忽视有关检测噪音尺度的信息，所以借用NSA卡尔曼算法¹¹所提出的一种适应性计算噪音协方差 $\tilde{R}_k$ 的公式：
$\tilde{R}_k=(1-c_k)R_k$