读论文：Fine-grained Image Classification via Combining Vision and Language

最新推荐文章于 2025-07-13 21:24:58 发布

原创

最新推荐文章于 2025-07-13 21:24:58 发布 · 784 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉

本文介绍了一种名为CVL的双流模型，结合视觉和语言信息进行细粒度图像分类。通过深度卷积神经网络的视觉流学习图像的深度表示，利用自然语言描述的语言流捕获关键特征。两个流的互补性提高了分类精度，对象定位和深度结构化联合嵌入是模型的关键组成部分。在CUB200-2011数据集上的实验表明，该方法取得了85.55%的正确率。

读论文：Fine-grained Image Classification via Combining Vision and Language

一、概述

大多数现有的细粒度图像分类方法都通过学习目标局部信息来实现更好的分类精度。但是存在两局限性。1.并不是所有的局部信息对于模型的学习都是有益处且必不可少的。2.细粒度图像分类需要的更详细的视觉描述，不能由局部位置或属性注释提供。针对以上两点局限，本文提出结合视觉和语言（CVL）的双流模型来学习潜在的语义表示。视觉流通过深度卷积神经网络从原始视觉信息中学习深度表示。语言流利用自然语言描述，可以指出每个图像的区别部分特征。由于两个流模型之间是互补的关系，因此将两个流合并可以进一步实现更好的分类精度。（我的理解是语言流提取的特征中含有视觉流中所没有的但又对于细粒度图像分类而言是较为关键的特征，同样，视觉流中提取的特征也包含语言流中所没有的，将这两个特征合并便是将更精确的特征表示进行了融合，即对这个图像更精确的特征表达）

二、本文贡献

1.本文提出了CVL方法，该方法将视觉和语言联合建模以学习图像的潜在的特征，经过训练，该方法的分类效果达到了85.55%的正确率。
2.通过本文结合语言信息中的属性或相关特征，我们发现语言流的部分提取的特征对于细粒度分类具有很大的帮助，这为之后的细粒度领域的研究提供了更多的研究思路，同时其他的领域也可以沿着这种方向去思考探索。