【文献阅读笔记】BoT-SORT: Robust Associations Multi-Pedestrian Tracking

文章提出了一种名为BoT-SORT的跟踪器,它结合运动和外观信息,使用卡尔曼滤波进行状态预测,并引入相机运动补偿来提高跟踪准确性。BoT-SORT还利用BoT+ResNeSt50进行外观特征提取,通过IoU和Re-ID融合进行目标关联,从而在多目标跟踪任务中提高性能。

BoT-SORT论文阅读

摘要

这篇文章提出一种新的鲁棒性前端跟踪器,结合了运动motion和外观appearance信息的优势,加入了相机运动补偿,以及更准确的卡尔曼滤波状态向量。

1.introduction

近年来对于多目标跟踪任务,tracking-by-detection正逐渐成为最有效的算法。基于检测的多目标跟踪算法包括目标检测跟踪
跟踪通常由两个主要部分组成:
(1)用于预测后续时刻帧的轨迹边界框的运动模型和状态估计,最常用的方法是卡尔曼滤波。
(2)将新一帧检测到的目标位置和当前跟踪轨迹序列关联,当前两种常用方法分别是:
(a)定位目标,计算预测的轨迹边界框和检测到的目标位置之间的IoU;
(b)借助目标的外观模型,解决重新识别任务(Re-ID)。

2.Related Works

Tracking-by-detection

Motion models

大多数基于检测的目标跟踪算法都基于运动模型。目前,具有匀速模型假设的卡尔曼滤波1是目标运动建模的常用方法,大多数SORT式的算法都采取该方法,如SORT2和DeepSORT3。也有许多研究使用带有更前端变量的卡尔曼算法例如NSA-卡尔曼滤波,比如和GIAOTrackers4和StrongSORT5。然而在一些复杂场景,相机运动会导致目标运动非线性以及错误的卡尔曼预测。因此许多研究采用了相机运动补偿算法(CMC),比如6和MAT7,CMC采用传统的图像配准来估计相机运动,并适当纠正卡尔曼滤波。

Appearance models and re-identification

在SORT式算法中,定位和追踪信息造成了跟踪器的检测能力(MOTA)与跟踪器长时间保持正确标识能力(IDF1)之间的权衡,使用IoU一般能取得更好的MOTA而Re-ID能获得更高的IDF1。其中,借助外观线索特征进行识别并重新标识(ReID)目标也逐渐成为常用方法比如MGN8、OSNet9、BoT10,但存在许多缺陷,尤其在人流拥挤出现遮挡的情况下效果较差。近些年,已经提出了几种联合跟踪器111213将检测和其他组件例如运动、嵌入、关联模型联合训练,优势在于低计算成本和客观的性能。

有一些研究只依赖高性能的检测器和运动信息,不用外观特征,比如14和ByteTrack15.

3.研究方法

针对基于检测的多目标跟踪,提出了三种主要修改改进方法,融合入ByteTrack,从而呈现出两种新的跟踪器:BoT-SORT和BoT-SORT-ReID(BoT-SORT的延申,包含了重新识别模块re-identification module)
ByteTrack大致框架:(BoT-SORT是以Byte为基础改进的)[^20]
Byte[1]

Pipeline: 高亮部分为BoT-SORT改进部分

  1. detector和ByteTrack一致,使用YOLOX:YOLO-X作为主干、COCO预训练模型作为初始权重
  2. 将所有检测到的边界框根据检测分数阈值 τ = 0.6 \tau=0.6 τ=0.6分为高置信度 D h i g h D_{high} Dhigh和低置信度 D l o w D_{low} Dlow两个部分。
  3. 采用CMC和卡尔曼滤波==(卡尔曼滤波状态变量有所不同)==预测当前帧每个轨迹的新位置 T \Tau T
  4. 第一次匹配:根据IoU&Re-ID结合(将运动信息和外观特征结合的关联方法),将 D h i g h D_{high} Dhigh和所有预测的轨迹边界框 T \Tau T关联,用匈牙利算法根据相似度匹配,匹配过的轨迹框从集合中去除。其中外观特征通过BoT+ResNeSt50得到,并通过EMA更新特征状态。没有匹配的检测 D r e m a i n D_{remain} Dremain和没有匹配的轨迹 T r e m a i n \Tau_{remain} Tremain
  5. 第二次匹配:单独用IoU作为相似度,将 D l o w D_{low} Dlow和剩下的预测轨迹 T r e m a i n \Tau_{remain} Tremain匹配。(不用Re-ID appearance feature因为 D l o w D_{low} Dlow包含太多因为遮挡或运动模糊导致外观特征不可靠)经过第二次匹配未匹配的 T r e − r e m a i n \Tau_{re-remain} Treremain放入 T l o s t \Tau_{lost} Tlost。只有当 T l o s t \Tau_{lost} Tlost出现在超过一定数量的帧才把它删除,否则保留 T l o s t \Tau_{lost} Tlost在tracks T \Tau T中。
  6. 每帧输出的是边界框和在当前帧的轨迹的ID(不包括 T l o s t \Tau_{lost} Tlost)。

1.the detector is YOLOX [24] with YOLOX-X as the backbone and COCO-pretrained model [36] as the initialized weights…The YOLO series detectors are also adopted by a large number of methods for its excellent balance of accuracy and speed. 15
For detection, we adopt YOLOX-X pretrained on COCO as our detector for an improved time-accuracy trade-off.6
2.separate all the detection boxes into two parts D h i g h D_{high} D

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值