Multi-Attention Multi-Class Constraint for Fine-grained Image Recognition论文解读

2018 ECCV论文介绍了端到端的细粒度图像识别网络,解决注意力区域间联系及效率问题。提出OSME(one-squeeze multi-excitation)学习多注意力区域特征,MAMC(multi-attention multi-class constraint)强化部件关系。通过N-pair loss优化度量学习,提高特征向量的类别区分度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

这篇论文是2018 ECCV的一篇论文,提出了一种半监督的细粒度图像识别的网络。

细粒度图像识别(Fine-Grained Image Recognition)

对于细粒度图像识别,简单的解释就是对于同一个大的类别中,不同子类之间的识别。以狗来进行举例就是,狗是大类,它包含很多的品种,每个品种就可以看做是一个子类。
由于受到多种干扰因素的影响,包括物体姿态、视角、光照、遮挡等,通常会使子类之间的物体差异偏小,而类别之间的物体差异偏大。
基于深度学习的物体分类可以大致分为强监督和弱监督两大类。强监督指图片标注中将物体某些显著特征(即discriminative判别性,可以区分类别的部位信息)给出,弱监督则没有此类信息。
现有的基于深度学习的弱监督方法,主要思路是定位出判别性部位,取得判别性特征做辅助来分类。这属于mid-level学习。加强mid-level学习能力是当前工作的重点。其实这很符合人类辨别细粒度物体的流程。先看全局信息知道大类,然后根据经验把注意力放在一些关键部位来做出判断,这些部位就是网络要找的discriminative parts.

解决的问题?
  1. 现在的注意力方法,主要是定位出识别区域,而忽视了识别区域之间的联系。
  2. 很多都是multi-stage,效率比较低。
  3. 需要大量的初始化操作,工作量比较大。
解决方法
  • 提出了一个端到端的网络
  • one-squeeze multi-excitation(OSME
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值