Mean Shift Trackers with Cross-Bin Metrics (2012 PAMI)论文翻译上

本文提出一种改进的MeanShift跟踪算法,该算法基于Earth Mover's Distance (EMD)度量,相较于传统的bin-by-bin度量,能够更好地处理特征直方图间的相似性度量问题。通过应用Cross-bin度量,该方法不仅保持了原始MeanShift算法的高效性,还提高了跟踪精度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

Cross-bin度量比bin-by-bin度量更适合衡量直方图距离。尤其最近提出的最小化候选和模板特征直方图的EMD距离,使用EMD度量比使用bin-by-bin度量的mean shift更鲁棒。每一帧,先前的跟踪器一个像素一个像素的向EMD梯度的反方向迭代,直到满足要求没有改进为止。最优化过程设计特征空间的候选特征密度的集群,也就是计算每个候选位置候选和末班特征直方图的EMD距离。本文提出了应用cross-bin度量MS迭代的跟踪方法。提出的跟踪方法更简单和迅速由于:1)基于MS未限制在单个像素漂移的最优化;2)放弃任何特征密度集群;3)多维空间未使用EMD计算。



一、           介绍

很多视频跟踪采用目标特征直方图作为目标的表观模型。特征直方图可能是一维或者多维。例如Camshift([1])跟踪人脸采用肤色Hue值作为一维模板直方图特征。([2])中跟踪采用目标的R,G,B(R,G,B分别表示颜色的R,G,B通道)三通道像素值值的线性加权作为一维特征。一维特征直方图自然的被应用于红外成像的目标跟踪上([3],[4]),l利用灰度值([5])。2D特征直方图包括归一化的(R、G)强度值([6],人脸跟踪[7]),色度hue-饱和度saturation值对([8],[9]);3D特征直方图也被应用在视觉跟踪方面。包括(B-G,G-R,B+G+R)对([10]),RGB 颜色空间颜色直方图([7],[11]),HSV 空间颜色直方图([12])。

上述跟踪器使用的衡量直方图相似性都是bin-by-bin度量,他们只比较了相对应的直方图层。没有考虑相邻层潜在的直方图特征漂移。处理这个问题的一个可行方法是,降低层的个数,也就是说,放大每个层的尺寸,也就降低了相邻层间的漂移。然而采取这个方法有两个伴随离散化的缺点:一个缺点是信息丢失:层尺寸越大,目标和非目标匹配到相同层的概率越大,因此,离散化的特征变成非显著性的;另一个缺点是离散化后不具有旋转不变形。两个很相近的预离散化特征可能映射到不同的相邻的直方图层中,然而两个其他比较远的预离散化特征(每一层的最大值和最小值)可能映射到相同的特征层。这两个负面影响损害了跟踪的表现,最终导致失败。

Cross-bin度量更适合度量直方图相似度广为人知。尤其,在视觉跟踪中,基于MS的EMD度量比基于巴氏系数的度量更好([14],[15])。后续工作中,提出了最小化候选和模板特征直方图EMD方法,展现了基于MS的鲁棒性的有事。另一方面,MS跟踪计算高效,在标准个人电脑上每秒可运行几百帧。

文献([14],[15])提出了有效的MS迭代方法。然而,需要一个闭环的目标函数([15]).跟踪器一个像素一个像素的向EMD距离的反梯度方向迭代直到没有改进为止。因此,每一帧要求的迭代次数至少和这帧中目标移动的像素数一样多。而且,最优化过程涉及特征空间候选特征密度的集群,使跟踪复杂化,降低了速率。另外,随着候选位置的每次移动,都要计算候选和模板的3D特征直方图的EMD距离。再次降低了跟踪速,实际上,这种方法不快于通过有限误差估计的EMD梯度的3倍。

本文中,提出了应用cross-bin度量基于MS迭代的选择性跟踪器。尤其,推导出了针对1D特征直方图的最小化EMD的MS跟踪方法。对于多维特征,本文推导出了基于直方图平滑的最小化EMD的MS跟踪算法。提出了基于MS迭代的跟踪器,是保持了原始MS跟踪器的高效性,计算量和原始MS跟踪器相同。事实上,在MS跟踪器1D特征增加的计算量可忽略不计。而且,提出的跟踪器没有设计任何特征密度的聚类,也没有多维空间的EMD计算。

这个工作可以分类为原始MS跟踪的改进。因此,下一部分,先回顾了先前的改进和拓展。更好的对比了提出的MS和原始MS,在第三部分推导出原始MS,然后第四部分和第五部分分别提出了针对1D特征直方图和多维特征直方图的MS推到。第六部分介绍了对比原始MS,提出的MS跟踪算法实验。第七部分介绍了结论。

 

二、           先前的工作

Comaniciu([7][17])提出了在每帧中与模板特征直方图最相近的图像区域位置。他们的文章中,提出了基于巴氏系数度量方法作为衡量直方图距离的鲁棒性方法。为了快速找到和模板直方图最相近的目标位置,推导出了应用MS迭代的方法。

MS跟踪算法由于快速和鲁棒性应用很广泛(2,3,4,11),并且提出了很多变形和扩展。这些工作的总结在(19)。最初的MS跟踪中,目标尺度在每帧是更新的。文献(19)中,MS跟踪器扩展到应用Lindeberg理论进行特征尺度选择。文献(11)中,提出在每个直方图层,更新模板颜色直方图,提出了假设性检验。文献(12)中,提出了使用牛顿法而不是MS迭代来最小化直方图距离。另外,提出了多核跟踪器。文献(20)中,扩展了多核跟踪器,利用状态约束,结合不同的跟踪器。文献([21])中提出了使用多重末班特征直方图的MS跟踪的扩展。

相对于完全忽略图像特征的空间结构的以上算法。利用目标区域的联合性空间特征分布的空间约束算法,表述在(22,23,24),利用多变量核密度估计来建立空间结构模型。以上所有的算法,都是求每帧目标位置的固定点估计。使用随时间的选择性组合的算法CONDENSATION([25]),提出概率分布函数(pdf),计算量变大。([26])中也采取了特征直方图作为目标表观模型。([27])提出集成MS跟踪提高了有效性。


三、           原始的Mean Shift跟踪器

接下来,重新推到下原始MS跟踪。

3.1     特征直方图和距离

表示目标的第m层模板特征直方图(以下所有直方图都是归一化后的)。在每帧图像序列,寻找与q最相近的以y为中心点的直方图p。直方图之间的距离度量是:

                                                                                                                 

其中,是巴氏系数:

                                                                                         

计算特征直方图的目标区域是椭圆形的。为了简化迭代,假设跟踪区域是个单位圆,并且以第一帧图像结合系统的最初位置为圆心。然而,在第一帧任意位置派生出椭圆目标区域。简单的通过平移、旋转和尺度变化。

表示经过上述归一化的模板区域的图像像素点的位置坐标((x,y)坐标),模板特征直方图为:

                                                                                                 

其中,b(x)表示位置X处的特征层数(1,2,…,m), 是delta函数,并且k(x)是核函数,距离越远离圆心的权值越小。核函数是归一化的 ,满足)。相似的,表示候选区域中心y的像素位置,此区域的特征直方图为

                                                                                       、

假设所有的有整数个像素的坐标。否则,n和离散化核的和可能会因为椭圆重点的像素位置的精确度而产生波动。

在文献[7]中,选用了Epanechnikov kernel,函数表达式如下:


                                                                                                          

3.2   目标定位

目标是估计目标平移位置y最小化公式(1)中距离dy,也就是说,最大化(2)中巴氏系数。Y0表示上一帧估计的目标位置。用一阶泰勒函数来逼近逼近当前帧的巴氏系数(2),代入公式(4)后得到:

                                                                                              

 其中:

                                                                                                                               

 

其中C独立于y。式(6)右边的加和是在y出的核密度估计(KDE),由核函数k,wi加权后的样本xi计算。

         在这种情况下,核函数k(x)单调递减,从根据以为中心的核,样本加权均值移动到来得到更高的KDE密度值。

                                                                                                   

 

其中,g(x )= -k(x)的导数。因为使用了Epanechnikov函数,其导数g是常数。因此,MS迭代过程公式(8)简化为为固定均值:

                                                                                                                              

 在移动后,重复设置 。在每次迭代后重复计算公式(7)中权值 。因为每次迭代都会产生候选特征直方图 的改变。

        很少情况下,可能会因为MS公式(8)(或者核函数中公式(9))降低巴氏系数(2),因为公式(6)仅仅是个近似。因此,每次迭代后评估模板和候选直方图之间的距离需要一个保持实施方法。假如,距离确实增加了(或者说巴氏系数减小了),降低直方图尺寸的一半,假如直方图之间的距离依然很大,继续江都一半的尺寸,如此反复。

     

3.3   MS 跟踪器概览

下面罗列了一帧MS跟踪器实施算法过程。如上所述, 是模板特征直方图(第一帧取得), 是上一帧估计的目标位置。

算法流程为:

其中, 一般设为20,但是平均的迭代数为4.

尺度自适应

采用一个简单的机制来更新目标尺度。每帧,MS跟踪用三个不同的尺度计算三次-分别为,上一帧尺度,增加10%,减少10%。然后,获得产生最小距离的那个尺度,最终的尺度是由刚获得的尺度和上一帧的尺度按1:9的比例加权求和。

四、           一维特征使用EMD的MS 跟踪

最初的MS最小化基于巴氏系数的度量,是一个bin-by-bin的度量。EMD是cross-bin距离,表示,将一个直方图转换到另一个直方图所需的最小的工作量。对于标准化1D直方图,一单位工作量表示在特征空间将一单位概率提议移动一单位距离。这标准距离下,EMD是一种度量,对1D特征,这部分推导出了MS跟踪器最小化EMD,并且计算量和原始MS跟踪相似。

在原始MS跟踪中,最小化模板直方图和候选区域直方图之间基于巴氏系数度量的距离。这儿,在两个直方图之间的EMD距离          

应该最小化。正如文献(28),两个归一化1D直方图间的EMD距离等于他们的积分直方图的L1距离,和直方图层的个数线性相关。因此:            

     

其中,  的积分直方图, 是 的积分直方图。实际上,公式(11)中的距离是当 时特殊情况下的cdf距离。


因此,接下来的推导过程将采用式(12)中的一般距离,将1代替a即可推到是EMD。

          目标是估计最小化式(12)中距离的目标平移 ,也就是说,最大化它的相反数。如上所述, 表示上一帧的估计目标位置。通过泰勒一阶展开式得到 周围值的式(12)相反数的近似值,


其中 和y独立, 是符号函数。代入替代改变加和的阶数,上述表达式等价于


代入式(4)中 ,推导出


其中,现在的像素加权值为


式(15)的右边部分和原始MS各种中的KDE有相同的结构。然而,这里的像素权值可能是负的,导致MS迭代(式8)不可用。因此,我们改进Collins(文献19)提出的MS迭代算法,使其适应有负加权值的情况。在改进话MS中,不是把像素加权值作为集合,而是作为MS偏移的方向和幅度的投票值。然后,MS迭代可以理解为组成基于所有像素的偏移投票形成的超位置来生成所有的平均偏移向量。改进后的MS迭代推导如下:


代入Epanechnikov kernel核函数推导出:


右上所述,可以容易得出对于非负权值,改进的MS迭代和原始MS等价。

         没有必要完全计算每个像素位置(式16)的和。而且,累积加权向量


       可以被一次计算,然后设置

       

4.1 算法概

改进算法流程和基于巴氏系数度量的原始MS算法流程相同,其中,1)第一步和第四步用EMD代替,或者更一般地,用CDF距离代替;2)第二步的像素加权用(式19,20)中的权值代替;3),第三步的MS迭代用改进后的核函数MS(式17,18)代替。

改进后的计算量和原始MS计算量相似。匹配特征直方图 和特征直方图p的积分权值 几乎和长度为m的积分元素向量不一致。因为1D特征直方图层数m不多于256,额外的计算量可忽略。


 








评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值