[Intensive Reading]MOT:FairMOT

FairMOT是一种在线多目标跟踪算法,基于Tracking-by-Detection策略,通过将JDE的YOLOv3主干替换成CenterNet,实现了检测方法从Anchor-base到Anchor-free的转变。改进后的算法在embeeding向量与目标位置匹配问题上有所缓解,提高了检测精度和效率。
部署运行你感兴趣的模型镜像

简介

A Simple Baseline for Multi-Object Tracking是一个online的多目标跟踪(MOT)算法,基于TBD(Traking-by-Detection)的策略,FairMOT主要就是基于JDE做的改进,可以简单的理解为,FairMOT是将JDE的YOLOv3的主干,改成了CenterNet,也就是将检测的方法由Anchor-base换成了Anchor-free,然后同样在已有检测模型上加了了embeeding分支,模型输出检测的结果和embeeding,提供给后续的assiciation使用。
当然这样替换是有道理的,下面我们从原理的部分分析下为什么要这样做。

原理

contributions

在这里插入图片描述
FairMOT指出,anchor-base的网络在加入embeeding分支之后,容易造成embeeding向量与实际的目标位置不匹配的问题,其实说的就是JDE╮( ̄▽  ̄)╭。而改为anchor-free方法之后,这种不匹配问题会得到缓解。这是为什么呢?
在这里插入图片描述
首先我们需要知道embeeding headmap是啥样的,embeeding headmap和其他特征图有着同样的w和h,但是在channel通道上,不管是128还是512,都不在提供任何其他的信息了。也就是说embeeding headmap的w*h上,每一个点会直接对应到原图一个目标,如果这个点恰好和原图上目标位置偏差比较大,就会不一致了。那么为什么anchor-base的结构很容易不一致,而anchor-free可以改善呢?
本质上是两种方法采样倍率的不一致,像上图左侧的图,注意上面的白色格子很稀疏,这是因为anchor-base的下采样倍率很高,一般在16倍左右构建多尺度,而anchor-free不需要这么大的采样倍率,一般是4,这意味着同样的输入,anchor-free比anchor-base的head map的size大4倍,映射回原图,就是稠密了16倍,当然可以有改善作用了,也就是这个原因,作者决定将anchor-base换成anchor-free,采用了centernet。

Inference

有了上面这个前提,其余的FairMOT和JDE的就非常非常像了,FairMOT同样有两类分支,一类是用来预测,和centernet一致,一类的embedding,加起来一个有四个:

  • center results : 1 × H × W 1\times H\times W 1×H×W
  • center offset results : 2 × H × W 2\times H\times W 2×H×W
  • bbox size results: 2 × H × W 2\times H\times W 2×H×W
  • dense embedding map: D × H × W D\times H\times W D×H×W

embedding特征图的厚度是D。这种分支的形式就联合了检测模型和Re-ID模型,将两者合并为一个。
而assiciation的部分和JDE更是完全一致的。

Train

FairMOT的训练数据和JDE是一致的,一共由6个数据集构成,其中有三个数据没有提供PID信息,只提供了检测信息。

数据集论文描述图像数量ID数量
PRW《Person Re-identification in the Wild》The PRW dataset is annotated from the same video as the Market-1501 dataset, i.e., captured with 6 cameras in the summer of 2014 in Tsinghua University. We have annotated 11,816 video frames, 932 identities belonging to 34,304 bounding boxes.5701933
MOT17MOT16的增强版,MOT16重复的数据从MOT117中剔除5316547
ETHZ《Robust Multi-Person Tracking from Mobile Platforms》20560
CUHK-SYSU《End-to-End Deep Learning for Person Search》1120611931
cityperson25000
caltech《Caltech Pedestrian Detection Benchmark》About 250,000 frames (in 137 approximately minute long segments) with a total of 350,000 bounding boxes and 2300 unique pedestrians were annotated.267291043

训练的损失函数有三个:
还是分为centernet的损失和embedding的损失:
在这里插入图片描述
在这里插入图片描述
其中centernet的center的损失和cornernet是一致的。
在这里插入图片描述
offset和xy的损失就是L1。
在这里插入图片描述
embeeding的损失是交叉熵。

实验结果

embeeding实验结果

在这里插入图片描述
在embeeding实验中,FairMOT比较了DLA-34 backbone下不同采样倍率下的anchor-base和anchor-free方法的ReID的效果,但是从这个实验本身是有问题的。
四倍的下采用样对于anchor-base的检测方法不合理,只有一个尺度的8倍下采样anchor-base的检测方法不合理,YOLOv3和JDE都使用8,16和32三个尺度的下采样倍率,单尺度和4倍的下采样是CenterNet的改进之一,DLA是否适用于anchor-base?在CenterNet前,没人用DLA作为检测的backbone;
综合上述几点,这个实验对anchor-base是不公平的。

MOT实验结果

在这里插入图片描述
在这里插入图片描述
上面这个表格比较了MOT challenge两个数据集上JDE和FairMOT的实验结果,MOTA和效率都有提高,但是需要注意的一点是,在之前MOT:通用性能评价标准提到,对于TBD策略的MOT算法,一个优秀的检测器本身就对最后效果有促进作用,所以我们可以看下CenterNet和YOLOv3的检测对比,同样是效果和效率都有提示,所以FairMOT本身就占了检测器的便宜。

总结

最后,不论如何,FairMOT最终的效果是不错的,而且提供了JDE策略在anchor-free模型上的范式,对于两个已有方法的合理组合,达到了1+1>2的效果。

您可能感兴趣的与本文相关的镜像

Yolo-v8.3

Yolo-v8.3

Yolo

YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出,因其高速和高精度而广受欢迎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值