读论文:Fine-grained Image Classification via Combining Vision and Language

本文介绍了一种名为CVL的双流模型,结合视觉和语言信息进行细粒度图像分类。通过深度卷积神经网络的视觉流学习图像的深度表示,利用自然语言描述的语言流捕获关键特征。两个流的互补性提高了分类精度,对象定位和深度结构化联合嵌入是模型的关键组成部分。在CUB200-2011数据集上的实验表明,该方法取得了85.55%的正确率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

读论文:Fine-grained Image Classification via Combining Vision and Language

一、概述

大多数现有的细粒度图像分类方法都通过学习目标局部信息来实现更好的分类精度。但是存在两局限性。1.并不是所有的局部信息对于模型的学习都是有益处且必不可少的。2.细粒度图像分类需要的更详细的视觉描述,不能由局部位置或属性注释提供。针对以上两点局限,本文提出结合视觉和语言(CVL)的双流模型来学习潜在的语义表示。视觉流通过深度卷积神经网络从原始视觉信息中学习深度表示。语言流利用自然语言描述,可以指出每个图像的区别部分特征。由于两个流模型之间是互补的关系,因此将两个流合并可以进一步实现更好的分类精度。(我的理解是语言流提取的特征中含有视觉流中所没有的但又对于细粒度图像分类而言是较为关键的特征,同样,视觉流中提取的特征也包含语言流中所没有的,将这两个特征合并便是将更精确的特征表示进行了融合,即对这个图像更精确的特征表达)

二、本文贡献

1.本文提出了CVL方法,该方法将视觉和语言联合建模以学习图像的潜在的特征,经过训练,该方法的分类效果达到了85.55%的正确率。
2.通过本文结合语言信息中的属性或相关特征,我们发现语言流的部分提取的特征对于细粒度分类具有很大的帮助,这为之后的细粒度领域的研究提供了更多的研究思路,同时其他的领域也可以沿着这种方向去思考探索。

三、网络结构

1.目标定位

由于对象对于细粒度图像分类至关重要,因此我们将原始图像及其对象位置作为双

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值