总体流程图:
Abstract
背景:短期跟踪是一个开放且具有挑战性的问题,其中判别相关滤波器(discriminative correlation filters, DCF) 展示了卓越的性能。
本文:我们为DCF跟踪引入了通道和空间可靠性的概念并为其在过滤器更新和跟踪过程中的高效无缝集成提供一种学习算法。空间可靠性图将滤波器调整到适合跟踪的对象部分,这既可以扩大搜索区域,又可以改善对非矩形对象的跟踪。可靠性分数反映了学习的滤波器的通道质量,并做为定位中的特征加权系数。
实验:在只有2个简单的标准特征集(HoGs和Colornames)情况下,CSR-DCF在VOT2016, VOT2015, OTB100上实现了SOTA,在CPU上达到几乎实时的速度。
1 Introduction
问题背景:短期、无模型的视觉对象跟踪是在给定单个外观示例的情况下连续定位视频序列中目标的问题。常见挑战:遮挡,光照变化,快速的物体或相机运动,由于刚性或非刚性的目标变形,与背景相似。
DCF方法介绍:半监督鉴别式跟踪方法。Discriminative correlation filter (DCF)在训练数据集上通过一个预设的响应学习一个filter,该filter通过稍微扩展目标周围的区域以包括背景样本来获得。标准的DCF使用循环相关,其通过快速傅里叶变换(FFT)有效学习filter。
DCF方法的缺点:
缺陷 | 备注 |
---|---|
1. the windowing problem | FFT要求搜索区域和filter一样大,限制了检测范围。解决方法(1):从更大的区域中学习filter,但随着target template padding factor的增大,DCF性能急剧下降(如下图)。解决方法(2):zero-padding the filter; 引入正则化惩罚超过边界框的filter值。这些方法都在比目标大得多的区域上学习filter因此增加了检测范围。 |
2. 均假设目标形状时轴对齐的矩形框 | 当目标形状不规则/遮挡时,filter相当于从背景中学习,导致跟踪漂移/失败。 |
【跟踪漂移】:在追踪过程中,滤波器一直在更新,而更新的滤波器并不能保证完全跟踪到后一帧的目标,会有误差产生,如果误差没有及时处理,滤波器就会一直这样错误的更新,一定时间后跟踪器无法正常的跟踪到目标,这就是漂移。
本文的工作:
- spatial reliability map. 通过图标注问题的输出估计得到。其克服了任意搜索区域大小导致的圆形移位问题+与矩形框形状假设相关的限制。这里提出了空间约束相关滤波S-DCF,将相关滤波器限制在适合跟踪的范围,提高不规则形状对象的搜索范围和性能。
- channel reliability. 由filter设计的约束最小二乘解的性质来估计。用于在定位时加权逐通道滤波响应,可以降低最终输出响应的噪声。
2. Related work
DCF可以追溯回MOSSE(2010,使用灰度模板)。后续基于DCF的改进可分为基于新特征的和基于概念提升的。
基于新特征的DCF改进 | 基于概念提升的DCF改进 |
---|---|
1. 将灰度模板用HoG替代;2. 使用卷积特征,但速度明显降低 | 1. 引入kernelized formulation;2. 基于尺度自适应的相关滤波,引入了人尺度空间金字塔;3. 和模板分割概率图联合滤波器的输入;4. 多解特征图;5. 联合多个卷积层的相关响应;5. 聚类相近的目标外观并使用及聚类结果定位目标而不是使用一个online learned filter. |
对单filter的改进:单filter易于跟踪失败在目标被遮挡/形变时,由于提出了part-based tracker。1. 将多个部分的相关输出结合;2. 用多个相关滤波建模目标结构;3. 将部件相关滤波器响应及其constellation约束共同视为等效弹簧系统。
最近的一些工作:最近,Kiani 等人 (2015) 解决了由于从小训练区域进行循环相关学习而出现的问题,其提出通过隐式0-padding滤波来手动增加滤波尺寸,通过增加约束过滤器学习中训练示例的数量来减少边界伪影。Danelljan等人重新制定学习成本函数以惩罚对象边界框外的非零滤波器值,但是学习的滤波器仍然在滤波相应和正则化之间权衡,不保证过滤器值在边界框之外为零。
3. Spatially constrained correlation filters
下图展示了标准DCF的求解过程及本文的核心改进:
接下来,详细介绍本文。
3.1 Constrained correlation filter learning将h 的学习改进为带约束的h
因为本文中将滤波学习改为通道独立的,在下文中假设通道为1。
3.2 Constructing spatial reliability map
3.2.1 Inference
3.3 Channel reliability estimation
3.4 Tracking with channel and spatial reliability
Localization Step:
以前一帧目标估计位置为中心的搜索区域中提取特征,并与学习的滤波器h_(t-1)相关联。通过以估计的通道可靠性分数w_(t-1)加权相关性响应来定位目标。尺度由single scale-space correlation filter估计。逐通道的滤波响应被用于计算对应的检测可靠性值(即3.3中的)。
Update Step:
前景和背景直方图 c^{hat} 通过指数移动平均以学习率\eta_c 提取和更新(算法 2 中的步骤 5)。前景直方图由估计的边界框内的 Epanechnikov 核提取,背景是从两倍于对象大小的邻域中提取的。空间可靠性图m被构建,最优滤波h被计算。逐通道学习可靠性权重w^{(lrn)}从相关响应中估计。当前帧的可靠性权重w由检测可靠性和学习可靠性估计。滤波和通道可靠性权重由指数移动平均以学习率\eta所更新。注意:每帧中空间可靠性图是独立计算的以捕获最大目标形变。