Visual Tracking Using Pertinent Patch Selection and Masking阅读小结

本文链接：https://blog.youkuaiyun.com/iplab_gdufs/article/details/49777435

该论文提出一种新的视觉跟踪方法，通过选取目标框内的切合块构建前景模型，并利用背景模型进行跟踪。算法通过前景似然图和掩模处理，实现对目标位置的精确估计，具有一定的鲁棒性，但在高噪声背景下可能出现跟踪丢失问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：

此论文提出了一种新的基于块外观模型的跟踪算法。首先将目标框分成大量的不重叠块，并选取重复出现在目标框中心的块作为切合块构建前景模型。将输入的图像分成不重叠的小块，在每个块的位置构建一个背景模型，并将这些背景模型作为一个整体用于跟踪。利用这些外观模型，我们可以得到一个较为准确的前景似然图。最后我们通过极大似然估计，并结合切合的掩膜得到目标的最佳位置。

关键字：

视觉跟踪、鲁棒性

1.引言：

目标跟踪是一个基本的视觉工具，以方便各种高级别的应用程序，包括监视，对象识别，事件分析，和智能机器人技术。尽管目前已经取得开发有效的跟踪算法，但是当检测和跟踪物体存在光照变化、构成的变化、复杂的运动、背景杂波，要获取相对稳定的跟踪效果仍然是具有挑战性的。在这些不利条件下，设计有效的外观模型是极为必要的。
最近，已经提出了许多外观模型和跟踪算法，这些模型可以粗略地分为边框模型、补丁模型。边框模型利用目标框提取对象特征，如颜色，纹理和运动。它对快速变化结构模型极其敏感，主要发生在动态序列，如电影和体育视频。补丁模型则是将边框分成大量的小块，再单独从块提取特征。它可以更灵活跟踪目标，但由于它没有明确区分前景patch和背景patch，可能会降低目标跟踪精度。
在本文中，我们提出了新的前景、背景外观模型，实现可靠和准确的跟踪。首先将目标框分成大量的不重叠块，并选取其颜色直方图可经常附近的边界框的中心在观察到的块作为切合块，构建前景模型。此外，我们还构建了本地的多背景外观模型。然后，利用前景和背景外观模型，我们得到前景似然图。最后，结合切合的掩膜来决定目标的最佳位置。

2.算法原理

2.1初始化目标框，建立一个跟踪对象的外观框架

在第一帧时，手动设置包含观测目标的（前景）边框Ω1；然后，将Ω1分解成8*8的不重叠的块，并获取每个块的HSV颜色直方图（利用颜色的显著特征来分析目标位置），然后进行前景模型优化处理：
首先，基于边框Ω1（边长w*h），我们定义一个放大的边框Ω1E（边长（w+16）*（h+16））和一个缩小的边框Ω1S（边长0.6w*0.6h），
前景外观模型的获取
为了比较两个块之间的相似性，分别计算出边框Ω1上的每个小块到边框Ω1E、边框Ω1S的显著度的和：这里写图片描述
的意义是从c(i)到边框中选中的k个最近的patch的距离之和。
类似地，我们可以得到为：

接下来，我们定义在Ω1中的patch的切合度ψ(i)=sE/sS

获取前景模型。（K一般取4）
最后，将输入的图片分成8*8的块，选取区域外的块位置进行初始化。传统的单背景模型无法提供足够的信息给跟踪器完成从前景边框图中分离出背景patches的任务，所以我们通过在区域Ω1内选取其最近的处于边框外的patch（直方图）获取多背景模型这里写图片描述。

2.2目标跟踪–贝叶斯跟踪

从第二帧开始，在每一帧t重新读入一张图，定义一个包含前一帧t-1的边框Ωt−1 的搜索区域Rt并重复第一帧的做法，确定前景图。同时用多个固定长度的队列控制patch刷新，来更新背景模型。

（1）获取前景似然图

假设这里写图片描述的大小是w*h ，搜索区域Rt大小为
δ =30，并将Rt分为多个不重叠的patch（8X8）。提取第m个patch 的颜色直方图。
利用k-d树找到Rt前景图到Ωt−1 距离最近的2个直方图，通过cross-bin metric计算两者的距离的平均值df ；
Rt背景图上找到25个到Ωt−1 距离最近的块，同样利用EMD（cross-bin metric）计算两者距离的平均值db。
最后，在这里写图片描述每个像素u的前景概率（ Foreground Probability ）可以通过下面式子计算（贝叶斯公式）
在patch Pm中，db的值很小（相似度很高情况下）df很大，=0.
在patch Pn中，db的值很大，df很大，=0.9。
得出前景似然图。

（2）用核Mt对RT进行卷积（掩膜）

我们通过最大化是 Ωt内的前景概率之和来找到xt。最理想的情况是 Ωt内无背景像素（图a），但是当目标边框还是可能包含一些背景的像素，这些背景像素的前景概率与原本目标像素的概率相当（图b）。因此我们可以通过使用一个切合的掩膜（ pertinence mask） Mt来滤除我们不想要的背景像素。
这里写图片描述
设xt和zt分别表示状态（state）和已观测情况（observations）。
xt在条件zt={z1,z2,…,zt)下的后验概率为

其中αt 是一个标准化项。
设状态xt是在t时刻边框区域下所要跟踪的目标的位置的概率，则我们

(前验概率是当前帧与前一帧的比较，后验帧则是当前帧与后一帧的比较）

Mask Mt由前一帧（t-1）的前景概率的窗口来决定，Mt大小与前景概率窗口大小一样。于是，p(zt/xt)可以通过下面式子得到：
这里写图片描述

|Mt|是mask内的像素的个数，k则表示Mt内候选的位置。这里写图片描述
当p(zt/xt)>0.75时，我们更新Mask通过下式：

λ是一个更新因子，其值设为λ=0.0005.
如果p(zt/xt)<=0.75， Mt+1=Mt.
Mask图解
这里写图片描述

2.3目标确定

通过最大化p(zt/xt)，得到目标位置Ωt。

2.4相关实验结果

实验截图
这里写图片描述

在背景颜色比较清晰时，整体跟踪效果比较好，在出现遮挡的情况下仍能够实现较好的跟踪，没有丢失目标。但是，如果背景噪声大容易丢失跟踪目标。

3.结论：

1）这是一个稳健的视觉跟踪算法，首次提出了切合度（ pertinence score）的概念，并通过排除目标边框内的背景信息构建更加准确的前景模型。
2）由于算法每经过一帧都需要重新计算图像的前、背景图的HSV图，开销大。
3）跟踪边框有时会变大，或者是缩小：认为是不同状态人的身体倾向，算法获取图像的HSV的比例也受到影响，导致边框大小波动。