深度学习目标跟踪：DeepSORT算法详解-优快云博客

本文链接：https://blog.youkuaiyun.com/sdw5723118/article/details/120053739

DeepSORT是一种基于深度学习的目标跟踪算法，采用匈牙利算法进行目标关联，结合卡尔曼滤波进行位置预测。它利用外观信息和马氏距离计算代价矩阵，卡尔曼滤波则用于提高目标位置估计的准确性。算法流程包括检测框生成、卡尔曼滤波预测、匈牙利算法匹配及卡尔曼滤波更新。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目前主流的目标跟踪算法都是基于Tracking-by-Detecton策略，即基于目标检测的结果来进行目标跟踪。视频中不同时刻的同一个人，位置发生了变化，那么是如何关联上的呢？答案就是匈牙利算法和卡尔曼滤波。

匈牙利算法可以告诉我们当前帧的某个目标，是否与前一帧的某个目标相同。
卡尔曼滤波可以基于目标前一时刻的位置，来预测当前时刻的位置，并且可以比传感器（在目标跟踪中即目标检测器，比如Yolo等）更准确的估计目标的位置。

在DeepSORT中，匈牙利算法用来将前一帧中的跟踪框tracks与当前帧中的检测框detections进行关联，通过外观信息（appearance information）和马氏距离（Mahalanobis distance），或者IOU来计算代价矩阵。

卡尔曼滤波被广泛应用于无人机、自动驾驶、卫星导航等领域，简单来说，其作用就是基于传感器的测量值来更新预测值，以达到更精确的估计。

卡尔曼滤波分为两个阶段：

(1) 预测track在下一时刻的位置。

(2) 基于detection来更新预测的位置。

DeepSORT对每一帧的处理流程如下：

检测器得到bbox → 生成detections → 卡尔曼滤波预测→ 使用匈牙利算法将预测后的tracks和当前帧中的detecions进行匹配（级联匹配和IOU匹配） → 卡尔曼滤波更新

Frame 0：检测器检测到了3个detections，当前没有任何tracks，将这3个detections初始化为tracks
Frame 1：检测器又检测到了3个detections，对于Frame 0中的tracks，先进行预测得到新的tracks，然后使用匈牙利算法将新的tracks与detections进行匹配，得到(track, detection)匹配对，最后用每对中的detection更新对应的track