阅读笔记《Learning Attentive Pairwise Interaction for Fine-Grained Classification》

最新推荐文章于 2023-06-23 18:35:20 发布

陆三斤

最新推荐文章于 2023-06-23 18:35:20 发布

阅读量2.4k

点赞数 1

分类专栏：细粒度图像分类阅读笔记细粒度识别文章标签：深度学习计算机视觉机器学习

本文链接：https://blog.youkuaiyun.com/qq_34317565/article/details/108028839

版权

细粒度图像分类同时被 3 个专栏收录

4 篇文章

订阅专栏

阅读笔记

4 篇文章

订阅专栏

细粒度识别

4 篇文章

订阅专栏

本文是关于《Learning Attentive Pairwise Interaction for Fine-Grained Classification》的阅读笔记

（菜鸟一枚见解不对轻喷）
原文链接
可惜代码没开源

阅读前三个问题

Q1:本文解决什么问题?
区别于大多数方法通过学习单个输入图像的区分表示，受人能通过比较图像有效识别对比线索而启发来解决高度混淆的类别之间存在细微差异的细粒度分类问题。
Q2：本文通过什么模型/理论/方法来解决这个问题?
注意力成对交互网络（Attentive Pairwise Interaction Network,API-Net）
Q3:本文的结果
API-Net的表现优于最近的SOTA方法，即CUB-200-2011（90.0％），飞机（93.9％），斯坦福汽车（95.3％），斯坦福狗（90.3％）和 NABirds（88.1％）。（发表于2020.2.24）

注意力成对交互网络（API-Net）

在这里插入图片描述
API网络可以模拟人类一样的学习方式，通过逐步识别一对细粒度图像，来学习两者之间的细微差异进行区分。它由三个子模块组成。

互向量学习（Mutual Vector Learning）

输入是一对细粒度图像（具有较高的相似度），通过CNN分别生成两个特征向量 $x_1$ 和 $x_2$ ，之后通过concat层将两个特征向量拼接，再通过MLP生成一个互向量 $x_m$ 。

$x_m = f_m([x_1,x_2])\,.$
$f_m(\cdot)$ 对 $x_1,x_2]$ 作映射函数

门向量生成（Gate Vector Generation）

$x_m$ 分别对 $x_1$ 和 $x_2$ 作通道积（channel-wise）并经过sigmoid函数生成对应门向量 $g_1$ 和 $g_2$
$\ g_i = sigmoid (x_m\odot x_i)\,. i\in\{1,2\}$
$g_i$ 以每个 $x_i$ 不同的视图凸显出的差异对了生成了具有判别性的注意力。例如， $g_1$ 关键区域再于身体， $g_2$ 的关键区域在于嘴巴。

成对交互（Pairwise Interaction）

激励方式：需要捕捉细微差异，不仅要检查每个图像的突出部分，还要检查另一个图像不同部分。因此通过残差注意力引入一种交互机制。
$\ x_1 ^{self}=x_1 + x_1\odot g_1\,, \\ \ x_2 ^{self}=x_2 + x_2\odot g_2\,, \\ \ x_1 ^{other}=x_1 + x_1\odot g_2\,, \\ \ x_2 ^{other}=x_2 + x_2\odot g_1\,,$
$x_i ^{self}$ 通过自身的门向量突出了自身的特征， $x_i ^{other}$ 通过成对图像中另一图像的门向量激活了其他部分。
在这里插入图片描述