(CVPR文献阅读)DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction

(CVPR文献阅读)DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction

在这里插入图片描述

一、主要成果:

1、提出了一种新的多目标跟踪器,称为Diff-MOT,并且该追踪器具有较强的非线性运动预测和实时速度。

2、第一个将Diffusion模型引入MOT来处理非线性运动预测,采用的是基于Diffusion的解耦合运动预测器 D 2 M P D^2MP D2MP来模拟具有非线性运动的物体的运动分布。(与其他模型相比, D 2 M P D^2MP D2MP模型具有拟合非线性运动和快速推理的优点。)

3、在非线性运动的主要公共数据集上,DiffMOT优于SOTA方法。DiffMOT在DanceTrack和SportsMOT上分别达到了62.3%和76.2%的HOTA指标。

二、方法:

2.1、DiffMOT框架

在这里插入图片描述

DiffMOT跟其他检测跟踪类似,都是将当前帧的检测与前一帧的轨迹相关联。架包括三部分:检测、运动预测和关联。

例如:给定一组视频序列,DiffMOT首先使用检测器检测当前帧中对象的边界框。接下来,通过运动预测来预测前一帧中目标物体的未来位置。

检测:采用YoloX探测器。对于一个视频序列,检测器逐帧检测物体的边界框。

运动预测就是提出 D 2 M P D^2MP D2MP的地方。 D 2 M P D^2MP D2MP是一个基于扩散的运动预测器,它利用前n帧作为条件,并从前一帧生成对象的未来运动。(从轨迹中检索前n帧的信息,作为 D 2 M P D^2MP D2MP的条件。随后,利用 D 2 M P D^2MP D2MP从正态分布中采样,获得每个物体的运动。最后,基于Diffusion的 D 2 M P D^2MP D2MP生成运动,并最终确定当前帧的预测边界框。)

关联:使用匈牙利算法[16]将预测结果与来自检测的高分边界框进行匹配。

2.2、Decoupled Diffusion-based Motion Predictor( D 2 M P D^2MP D2MP

算法从以历史运动信息为条件的正态分布中生成未来的运动。

解耦扩散模型将数据到噪声过程分成两个子过程:data to zero和zero to data

data to zero将干净数据逐渐减少到零,zero to data将零数据增加到正常噪声,两个子过程的总和构成了数据到噪声的过程
在这里插入图片描述

正向过程:

定义轨迹 p p p条轨迹 T r a j = { T 1 , T 2 , T 3 . . . T p } Traj=\{T_1,T_2,T_3...T_p\} Traj={ T1,T2,T3...Tp},一个目标的轨迹按照帧编号依次为 T = { B 1 , B 2 , B 3 . . . . B f } T=\{B_1,B_2,B_3....B_f\} T={ B1,B2,B3....Bf},其中 B f B_f Bf为目标的检测框, B f = ( x f , y f , w f , h f ) B_f=(x_f,y_f,w_f,h_f) Bf=(xf,yf,wf,hf)

定义目标在 f f f帧时,与前一帧的差值为 M f = B f − B f − 1 = ( Δ x f , Δ y f , Δ w f , Δ h f ) M_f=B_f-B_{f-1}=(\Delta x_f,\Delta y_f,\Delta w_f,\Delta h_f ) Mf=BfBf1=(Δxf,Δyf,Δwf,Δhf)并且 M f M_f Mf作为不加噪声的数据

再定义 M f , t M_{f,t} Mf,t作为正向传播中有噪声的数据,其中 M f , 0 M_{f,0}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值