滑窗分类
SOT早期的工作
Siamese-FC, 对单目标来做跟踪,论文中通过计算两个图像patch之间的相似度,来定位物体,通过多次rescale 输入图片来实现多尺度物体的跟踪。
Method
- 网络整体分两个分支,两个分支使用 相同的卷积 (siamese 的意思)进行特征抽取
- 第一个分支抽取 目标object(z)的feature A
- 第二个分支抽取 待搜索图片(x)的feature B
- cross-correlation
利用抽取的feature A作为卷积核在B上进行卷积,这样最后得到的score map实际上就是待搜索图片特征B与目标object patch特征A的相似度。而score map上这个点的取值就可以理解为原图中这块区域和目标object之间的相似度,那么最后相似度最高的点就被定位为目标object在当前帧上面的位置。
ϕ(.)是经过卷积操作分别提取 z 和 x 的特征
g(.)是将两个特征图,经过cross-correlation来获得相关性,即用卷积模拟相关滤波,得到响应特征图。