细粒度分类网络之WS-DAN论文阅读附代码

本文介绍了WS-DAN论文,这是一种用于细粒度视觉分类的方法,通过弱监督注意力学习和注意力引导的数据增强,提高了在细粒度分类任务中的性能。网络结构包括Bilinear Attention Pooling和Attention-Guided Data Augmentation,实现在无需额外标注信息的情况下聚焦关键区域。代码实现链接提供,可应用于细粒度图像分类任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文阅读

细粒度分类 (FGVC) 是为了解决“类内分类”问题,有别于猫狗分类,它要解决的是 [这只狗是萨摩还是哈士奇] 这种问题。这类问题的特点是类别之间的区别较小,本人从事的瑕疵检测也是属于这一领域,有瑕疵的样本与正常样本往往区别很小,用普通的分类网络并不能达到很好的效果,这篇论文中介绍的网络亲测比普通的分类网络效果更好。

该论文提出了一种针对细粒度视觉分类任务的方法,采用基于弱监督学习的图像增强方法,结合注意力机制,这使得网络可以在不需要额外标注信息的情况下聚焦到那些图像中“有话语权”的部分,在细粒度分类问题中达到 state-of-art 的水准。

论文地址:https://arxiv.org/pdf/1901.09891.pdf​

论文的前面两小节,作者大概介绍了一下他们发这篇论文做的工作以及业界对 FGVC 问题的进展。精华从第三小节开始:

1.训练过程

(a) Training process.

上图是整个网络的训练过程,也是整片论文的核心。训练过程分成了**(A)Weakly Supervised Attention Learning** 以及 (B) Attention-Guided Data Augmentation 两部分,下面分别讲解这两部分

  • (A)Weakly Supervised Attention Learning

这一步是基于弱监督的注意力区域学习。首先,网络会对原始图片基础 CNN 进行特征提取,特征提取网络默认使用 inceptionV3,当然我们也可以用其他网络。提取到的特征文中称为 Feature maps,随后 Feature maps 经过一个kernel size 为 1 的卷积运算得到 Attention maps,就是说 Attention maps 是由 Feature maps 降维之后得到的,具体降到多少维度 M 是一个超参数可以自行配置。根据作者描述,M 个 Attention map 中每一个都代表了物体的一个位置例如鸟的头部,飞机的机翼等。后面网络还会根据 Attention map 对图片进行针对性的增强。

Bilinear Attention Pooling

在得到 Feature maps 和 Attention maps 之后,作者受 Bilinear Pooling 的启发,提出了 Bilinear Attention Pooling,简称 BAP,如上图中所示,具体操作是将 Feature maps 与每个 channel 的 Attention map 按元素相乘,如下式。相乘之后再经过池化降维以及拼接操作获得最后的 Feature Matrix,这是最后线性分类层的输入。

F k = A k ⊙ F ( k = 1 , 2 , . . . , M ) F_k = A_k \odot F(k = 1, 2, ..., M) F

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值