视频目标检测算法之Track&detection

本文介绍了一种在视频目标检测中结合目标追踪的新方法——Track&Det融合方法。该方法在一个模型中同时实现追踪和目标检测,提高了检测精度。文章详细解析了其背后的数学原理,包括如何计算候选框类分数的条件概率及其在两步法检测器中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

视频目标检测之Track&detection


  之前的文章介绍了 视频目标检测之后处理方法,接下来我们要介绍用于视频目标检测的Track&detection方法,这种方法就是在一个模型里同时实现了追踪和目标检测,具体要介绍的文章是:
Integrated Object Detection and Tracking with Tracklet-Conditioned Detection

背景

最开始的追踪和检测算法是在每一帧中进行目标检测,再将所有帧的检测结果组合成目标轨迹。这种方法简单,但追踪对目标检测是完全没有帮助的。为了解决这一问题,有些方法是将上一帧的bounding box传播到当前帧再加上当前帧的目标检测结果作为新的目标检测结果。整个算法流程如下图所示。显然改进后的方法并没有提高目标检测器本身的效果。因此作者提出了一种将追踪和目标检测融合在一起的新方法。
在这里插入图片描述

公式推导

作者的目标是通过利用之前的目标检测和追踪来提高当前帧的检测结果。转换为数学表达式就是:已知当前帧候选框和之前所有的目标轨迹,求每个候选框类分数的条件概率, P ( c ∣ b i t , ( d j t − 1 ) ) P(c|b^{t}_{i},(d^{t-1}_{j})) P(cbit,(djt1))
根据概率论,可以直接展开为 P ( c ∣ b t i , ( d t − 1 j ) ) = ∑ j = 0 m ω ( b i t , ( d j t − 1 ) ) P ( c ∣ b i t , d j t − 1 ) P(c|b^{i}_{t},(d^{j}_{t-1}))=\sum_{j=0}^{m}\omega(b^{t}_{i},(d^{t-1}_{j}))P(c|b^{t}_{i},d^{t-1}_{j}) P(cbti,(dt1j))=j=0mω(bit,(djt1))P(cbit,djt1)

该式子可以理解为所有追踪轨迹对预测类别的影响=每个追踪轨迹对预测类别的影响的求和。显然不同轨迹对预测类别影响肯定是不一样的,所有这里需要加一个权重 ω \omega ω

求解上式,只需要知道 ω ( b i t , ( d j t − 1 ) ) \omega(b^{t}_{i},(d^{t-1}_{j})) ω(bit,(djt1)) P ( c ∣ b i t , d j t − 1 ) P(c|b^{t}_{i},d^{t-1}_{j}) P(cbit,djt1)这两部分。先看看怎么求 P ( c ∣ b i t , d j t − 1 ) P(c|b^{t}_{i},d^{t-1}_{j}) P(cbit,djt1)

根据p(x|y,z)=p(x|y)·p(x|z),可展开得到 P ( c ∣ b i t , d j t − 1 ) = P ( c ∣ b i t ) ⋅ P ( c ∣ d j t − 1 ) P(c|b^{t}_{i},d^{t-1}_{j})=P(c|b^{t}_{i})·P(c|d^{t-1}_{j}) P(cbit,djt1)=P(cbit)P(cdjt1), 同样可以写成 P ( c ∣ b i t , d j t − 1 ) = e x p ( l o g P d e t ( c ∣ b i t ) + α l o g P t r ( c ∣ d i t − 1 ) ) P(c|b^{t}_{i},d^{t-1}_{j})=exp(logP_{det}(c|b^{t}_{i})+\alpha logP_{tr}(c|d^{t-1}_{i})) P(cbit,djt1)=exp(logPdet(cbit)+αlogPtr(cdit1))

公式中加 α \alpha α同样是为了衡量目标检测器和轨迹对类分数的影响。最后作者还对其进行了归一化。在这个式子中 P d e t ( c ∣ b i t ) P_{det}(c|b^{t}_{i}) Pdet(cbit)是已知的,即目标检测器预测的类分数,整个式子只有 P t r ( c ∣ d i t − 1 ) P_{tr}(c|d^{t-1}_{i}) Ptr(cdit1)未知。

作者给出了求解式子,如图所示。简单来说,对于t时刻,每一个轨迹都会维护一个 P t r t P^{t}_{tr} Ptrt值,它是由 P t r t − 1 P^{t-1}_{tr} Ptrt1 P ( c ∣ b i t − 1 , ( d j t − 2 ) ) P(c|b^{t-1}_{i},(d^{t-2}_{j})) P(cbit1,(djt2))计算得到。

到这里 P ( c ∣ b i t , d j t − 1 ) P(c|b^{t}_{i},d^{t-1}_{j}) P(cbit,djt1)就已经求得了,接下来看怎么求解 ω ( b i t , ( d j t − 1 ) ) \omega(b^{t}_{i},(d^{t-1}_{j})) ω(bit,(djt1))。在下图底部给出了。

改式表达的是计算不同候选框的特征相似度

到这一步就可以求出整个式子了,接下来看如何使用
在这里插入图片描述

在两步法检测器中的应用

通过上一部分的介绍,可以求出每个候选框的类分数,具体的算法流程如下。
在这里插入图片描述
显然作者提出的算法可以插入到任何一个有候选框的算法里面。在论文里,作者举了在两步法中的应用。在RPN和Detection阶段都可以应用该算法。在RPN中,轨迹更加稠密,并且只有两个类别(背景+前景),而detection阶段,轨迹更加稀疏,有c+1类(1代表背景)。
在这里插入图片描述

效果

和只是将前一帧的bounding box传播到当前帧算法相比,该算法有2%的提升。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值