简单介绍一下背景,这篇文章是大连理工的卢湖川教授http://202.118.75.4/lu/publications.html
的学生Lijun Wang在港中文与Xiaogang Wang团队合作的ICCV2015的文章。笔者7月份在CUHK听报告的时候有幸提前看到相关的展示,感觉结果很惊人。Prof Xiaogang Wang是深度学习的大牛,卢湖川教授是tracking的大牛,这篇文章可谓是强强联合的产物。
开始说这篇文章。作者首先首先从visual tracking的角度针对CNN网络进行研究,
两个属性
1)不同层上的CNN特征可以针对不同的tracking问题。越top层的特征越抽象,并且具有语义信息。这些特征的优势在于区分不同类别,同时对于形变和遮挡robust(下图a)。但是他们的缺点是无法区别类内的物体,比如不同人(下图b)。而底层的特征更多的是局部特征,可以帮助将目标从背景中分离出来(下图b)。但是无法处理目标外表剧烈变化(下图a)。于是在tracking中作者将两个特征根据干扰的情况,实时切换两种特征。
三个观察以及三个方面的贡献:
作者提到CNN网络在tracking的三个observations是非常重要的,因为这个启发了作者如何将imageNet pretrained CNN应用到visual tracking上去。同时作者cvpr2016的文章仍然是这个思路的延续[1].
下面说一下三个observations: