[论文阅读] BoT-SORT: Robust Associations Multi-Pedestrian Tracking

本文介绍了BoT-SORT,一种在多目标跟踪(MOT)领域取得SOTA成果的算法,由特拉维夫大学的研究者提出。该算法针对TBD范式的SORT-like方法存在的问题,提出了卡尔曼滤波改进、相机运动补偿和IoU&ReID融合等解决方案。通过使用更强的Re-ID基线和相机运动补偿技术,BoT-SORT在IDF1和MOTA指标上表现出色,尤其是在短时遮挡情况下。然而,引入Re-ID导致的计算效率降低是其局限性之一。文章详细解析了算法的各个组成部分,并与相关工作进行了对比。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这篇文章是今年6月底发布的一篇多目标跟踪(MOT)的屠榜方法,命名为BoT-SORT。作者来自以色列的特拉维夫大学(Tel-Aviv University)。本文简单谈谈我对这个算法的理解,因为也是MOT领域的初学者,如有错误希望各位读者修正,也欢迎大家一起探讨。
PS:文章内部分图片是原创,如需转载请注明出处。

paper: https://arxiv.org/abs/2206.14651
code: https://github.com/NirAharon/BOT-SORT

算法在IDF1和MOTA两个指标上都做到了SOTA:
BOT-SORT性能
在MOT的诸多算法中,可以将其分成两类——即TBD(Tracking by Detection)范式和JDE范式。TBD范式是two-shot的算法,即在保证检测结果准确的基础上实现跟踪算法(比较经典的算法有SORT/DeepSORT/ByteTrack/OC-SORT等等)。JDE范式则是one-shot的算法,旨在一步到位,使用检测的方法同步实现跟踪。这篇文章提出的算法应属于TBD范式,下面是TBD范式的一般流程:
TBD范式文章首先简单阐述了“SORT-LIKE”系列方法的缺陷,其贡献点也是旨在解决这些问题:
sort-like-pros现存主要问题有两个:

  • 由于卡尔曼滤波相机运动两个因素,导致的Bounding box预测不准确;
  • Re-ID任务和检测任务的平衡问题(在跟踪任务中加入Re-ID)

解决方式主要有三个:

  1. 改进KF的状态向量
  2. 使用相机运动补偿方式改进bounding box的预测;
  3. 加入Re-ID的度量,提高跟踪的准确度。

下面分别简单介绍这三个贡献:

1.卡尔曼滤波的改进

kf改进改进后的效果:
在这里插入图片描述
这部分的有效性文章通过后面的消融实验来证实,具体KF的推导比较繁琐,我的理解就是把之前使用的宽高比变成了使用宽和高

2. 相机运动补偿

作者认为相机的运动会导致检测框的漂移,即便是静止的相机,目标中人物也可能会因为不规则运动导致目标的振动。
这部分使用opencv中的全局运动估计(GMC)技术来表示背景运动。首先提取图像关键点,再利用稀疏光流进行基于平移的局部异常点抑制的特征跟踪。然后使用RANSAC计算放射变换矩阵,在将预测的边界框从k-1帧坐标变换到其下一阵第k帧的坐标。

效果:
CMC
题外话:这部分相机运动补偿的工作其实StrongSORT(DeepSORT的改进)也有做过,在StrongSORT中使用的是ECC方法

3. IoU&ReID Fusion

为了提取Re-ID特征,采用了FastReID库中BoT 之上的更强的baseline——SBS(2020年提出)+ ResNeSt50作为骨干网络。这部分在StrongSORT中也用了相同的backbone。

在外观分支,具体实现:
reid分支余弦相似度和用于匈牙利算法的代价矩阵计算:
余弦相似度&代价矩阵

最后我们回顾下这个方法的pipeline,上面描述的三部分就对应pipeline中的以下三部分:
pipeline

熟悉MOT算法的朋友肯定一眼就看得出来,整体的流程和ByteTrack是一样的:

  • 第一次联合高分置信度的目标,并作Re-ID和IOU的匹配;
  • 第二次联合低分置信度的目标。

这里借用 ByteTrack的图,看得更明显一些:
bytetrack第一次关联(关联1)中,ByteTrack的作者也表示过,使用过Re-ID分支作匹配,但效果一般。其中使用的是DeepSort的策略,使用简单的CNN提取RE-ID特征:
a1
其实在看过文章和一些源码以后,发现BoT-SORT貌似是把ByteTrack中认为无效的工作捡起来重做了。具体一些,是把之前的DeepSORT更换为其更强大的变体——StrongSORT:

BOT-SORT

无论是提取re-id特征的backbone部分还是后续使用的相机运动补偿和EMA策略,基本流程都和StrongSORT一致。

最后是实验部分:
实验1
在这里插入图片描述
加入相机运动补偿(CMC)的效果:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
总体来说,在我看来其实这篇文章的创新点,或者说能够work的亮点主要在RE-ID上。但在limitation部分作者也说了,加入RE-ID之后速度非常慢,这个我也有进行一些测试,fps只能达到5以内,没办法实时。但是在短时遮挡的情况下,算法可以很好地跟住目标,这点要比ByteTrack/oc-sort这些方法要好。

很多地方语焉不详,文章的翻译和一些解析也可以参考 https://blog.youkuaiyun.com/jacke121/article/details/125568958…

<think>好的,用户想了解BoT-SORT的技术文档和常见问题解决方案。首先,我需要回顾一下BoT-SORT的相关知识。根据引用内容,BoT-SORT是一种基于深度学习的多目标跟踪算法,结合了Bottleneck Transformers和改进的卡尔曼滤波。它在SORT和DeepSORT的基础上进行了优化,比如使用更准确的状态变量,如$x = [x_c, y_c, a, h, \dot{x_c}, \dot{y_c}, \dot{a}, \dot{h}]$,这可能提高了跟踪的鲁棒性[^4]。 用户需要技术文档和常见问题解答,所以应该先整理BoT-SORT的核心技术点。比如,它的算法流程、状态变量定义、数据关联方法(如ReID特征和IOU的融合),以及卡尔曼滤波的改进。然后,常见问题可能包括参数调优、ID切换、遮挡处理、计算资源需求等。需要结合引用中的信息,比如引用[3]提到ByteTrack比BoT-SORT更快,可能涉及到性能优化的问题。 还要注意用户提供的引用中,引用[2]提到在煤矿场景中的应用,引用[3]对比了BoT-SORT和ByteTrack的性能。这可能意味着用户对实际应用中的问题感兴趣,比如不同场景下的适应性、速度与精度的权衡等。 接下来需要确保回答的结构清晰,分点列出技术要点和解决方案。可能还需要指出官方资源的位置,比如论文和GitHub仓库,帮助用户进一步查阅。另外,引用格式要正确,每个引用标记对应正确的来源。 最后,生成相关问题时要围绕BoT-SORT的应用、优化、比较等方面,帮助用户深入探索。例如,如何调整参数、处理遮挡、与其他算法的比较等。</think>### BoT-SORT技术文档核心要点 1. **算法基础** BoT-SORT结合了Bottleneck Transformers和改进的卡尔曼滤波,用于多目标跟踪(MOT)。其状态变量定义为: $$x = [x_c, y_c, a, h, \dot{x_c}, \dot{y_c}, \dot{a}, \dot{h}]$$ 其中$x_c, y_c$为目标中心坐标,$a$为高宽比,$h$为高度,$\dot{x_c}, \dot{y_c}$为速度。 2. **关键改进** - **数据关联**: 融合ReID特征(外观相似度)与IOU匹配,提升遮挡场景下的跟踪鲁棒性[^2]。 - **卡尔曼滤波优化**: 使用更精确的运动模型,减少目标丢失概率。 3. **性能对比** 实验表明,BoT-SORT在遮挡处理上优于ByteTrack,但实时性略低(例如车辆跟踪场景)[^3]。 ### 常见问题解决方案 1. **ID切换频繁** - **原因**: 高遮挡或快速运动导致匹配失败。 - **解决**: 增大ReID特征的权重,或引入轨迹插值算法补全丢失帧[^1]。 2. **计算资源不足** - **优化方法**: 降低输入分辨率,或使用轻量级ReID模型(如MobileNetV3)。 3. **误匹配问题** - **调整参数**: 优化卡尔曼滤波的噪声协方差矩阵,或调整IOU阈值(如从0.5改为0.7)[^4]。 4. **部署实践** - **华为Atlas平台**: 需使用ONNX格式转换模型,并启用TensorRT加速。 ### 官方资源与工具 - **论文**: [BoT-SORT: Robust Associations Multi-Pedestrian Tracking](https://arxiv.org/abs/2206.14651) - **代码**: [GitHub仓库](https://github.com/NirAharon/BOT-SORT) - **应用示例**: 使用Ultralytics YOLOv8集成BoT-SORT: ```python from ultralytics import YOLO model = YOLO('yolov8n.pt') results = model.track(source="video.mp4", tracker="botsort.yaml") # 启用BoT-SORT ```
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值