DeepSORT算法通过结合目标框的马氏距离(Mahalanobis distance)和特征余弦距离(Cosine similarity)两个度量来整合运动信息和外观信息。外观信息是指使用了一个简单的CNN网络去提取被检测物体的外观特征。运动信息是指卡尔曼(kalman)滤波预测的结果。
Deepsort的算法流程是:
(1)获取视频的初始帧
(2)使用卡尔曼(kalman)滤波器进行目标运动状态的预测,得到估计目标的两种状态。
DeepSORT中的滤波算法使用的状态是一个8个维度的向量。分别是(u, v, γ, h, ẋ, ẏ, γ̇, ḣ),(u, v)表示目标中心点的水平坐标和目标中心的垂直坐标,(<