简介
这篇论文是2018 ECCV的一篇论文,提出了一种半监督的细粒度图像识别的网络。
细粒度图像识别(Fine-Grained Image Recognition)
对于细粒度图像识别,简单的解释就是对于同一个大的类别中,不同子类之间的识别。以狗来进行举例就是,狗是大类,它包含很多的品种,每个品种就可以看做是一个子类。
由于受到多种干扰因素的影响,包括物体姿态、视角、光照、遮挡等,通常会使子类之间的物体差异偏小,而类别之间的物体差异偏大。
基于深度学习的物体分类可以大致分为强监督和弱监督两大类。强监督指图片标注中将物体某些显著特征(即discriminative判别性,可以区分类别的部位信息)给出,弱监督则没有此类信息。
现有的基于深度学习的弱监督方法,主要思路是定位出判别性部位,取得判别性特征做辅助来分类。这属于mid-level学习。加强mid-level学习能力是当前工作的重点。其实这很符合人类辨别细粒度物体的流程。先看全局信息知道大类,然后根据经验把注意力放在一些关键部位来做出判断,这些部位就是网络要找的discriminative parts.
解决的问题?
- 现在的注意力方法,主要是定位出识别区域,而忽视了识别区域之间的联系。
- 很多都是multi-stage,效率比较低。
- 需要大量的初始化操作,工作量比较大。
解决方法
- 提出了一个端到端的网络
- one-squeeze multi-excitation(OSME