论文题目:Fully-Convolutional Siamese Networks for Object Tracking
这是ECCV16的一篇经典论文,主要的task是做视频目标跟踪VOT的。在这之前的一些深度学习算法中都需要在新视频上进行微调(即online training),以学习到新视频中目标的特征,但是fine-tune会花费很多时间,无法做到real-time。而SiamFC这篇文章,采用了一种全新的matching方法,即利用第一帧的mask和后续帧匹配,计算像素级的score map,score值响应大的点就对应着目标区域。
模型的基本结构如下图所示:
如上图,SiamFC采取了一个Siamese的网络架构,有两个不同的输入 zzz 和 xxx, zzz 表示视频第一帧的ground truth,其输入维度为127∗127∗3127*127*3127∗127∗3; xxx 表示search image,其尺寸被resize到 255∗255∗3255*255*32