读论文:Fine-grained Image Classification via Combining Vision and Language
一、概述
大多数现有的细粒度图像分类方法都通过学习目标局部信息来实现更好的分类精度。但是存在两局限性。1.并不是所有的局部信息对于模型的学习都是有益处且必不可少的。2.细粒度图像分类需要的更详细的视觉描述,不能由局部位置或属性注释提供。针对以上两点局限,本文提出结合视觉和语言(CVL)的双流模型来学习潜在的语义表示。视觉流通过深度卷积神经网络从原始视觉信息中学习深度表示。语言流利用自然语言描述,可以指出每个图像的区别部分特征。由于两个流模型之间是互补的关系,因此将两个流合并可以进一步实现更好的分类精度。(我的理解是语言流提取的特征中含有视觉流中所没有的但又对于细粒度图像分类而言是较为关键的特征,同样,视觉流中提取的特征也包含语言流中所没有的,将这两个特征合并便是将更精确的特征表示进行了融合,即对这个图像更精确的特征表达)
二、本文贡献
1.本文提出了CVL方法,该方法将视觉和语言联合建模以学习图像的潜在的特征,经过训练,该方法的分类效果达到了85.55%的正确率。
2.通过本文结合语言信息中的属性或相关特征,我们发现语言流的部分提取的特征对于细粒度分类具有很大的帮助,这为之后的细粒度领域的研究提供了更多的研究思路,同时其他的领域也可以沿着这种方向去思考探索。
三、网络结构
1.目标定位
由于对象对于细粒度图像分类至关重要,因此我们将原始图像及其对象位置作为双