Learning Attentive Pairwise Interaction for Fine-Grained Classification
2020 AAAI。网络结构倒是不复杂,但是这么大的batch size要怎么跑起来。
文章目录
摘要
动机:目前方法都是通过单张图像学习区分性表示,而人类可以通过比较图像对来有效地识别。
网络:注意力成对交互网络(API-Net),通过交互逐步识别成对的细粒度图像。
- 先学习一个共同的特征向量,捕获输入对中的语义差异
- 将该向量与各个向量比较,为每个输入图像生成门
- 端到端,分数排序正则化
代码:https://github.com/PeiqinZhuang/API-Net
1 引言
人类是在比较中识别细粒度对象的。
引入注意力成对交互网络API-Net,可以从一对细粒度图像中自适应地发现对比线索,并通过成对交互进行区分。
API-Net由三个子模块组成,即相互向量学习,门向量生成和成对交互。输入一对图像,先学习一个互矢量,以将输入对的对比线索概括为上下文。再将互向量与单个向量进行比较生成不同的门,可以从每个单个图像的角度突出显示语义差异。将这些门作为区分性注意力执行成对交互。每个图像可以生成两个增强的特征向量,分别从其自身的门矢量和该对中另一个图像的门矢量激活。通过端到端的训练方式和分数排名正则化。
即插即用。
2 API-Net

2.1 互矢量学习
两张图片分别经过主干网络生成 D D D维特征向量 x 1 , x 2 x_1,x_2 x1,x2,映射函数(多层感知机)学习一个 D D D维互矢量 x m = f m ( [ x 1 , x 2 ] ) x_m=f_m([x_1,x_2]) xm=fm([x1,x2])。由于 x m x_m xm是两个的自适应总结,通常包含特征通道,指示成对的高层次的对比线索。
2.2 门向量
将 x m x_m xm作为指导,寻找每个 x i x_i xi包含的对比线索,生成门:
g i = s i g m o i d ( x m ⊙ x i ) , i ∈ { 1 , 2 } g_i=sigmoid(x_m\odot x_i),i\in \{1,2\} gi=sigmoid(xm⊙xi),i∈{
1,2}
g i g_i gi成为有区别的注意力,以不同角度指出了每个 x i x_i xi的语义差异。
2.3 成对交互
通过门向量进行成对交互:
x 1 s e l f = x 1 + x 1 ⊙ g 1 x 2 o t h e r = x 2 + x 2 ⊙ g 2 x 1 s e l f = x 1 + x 1 ⊙ g 2 x 2 o t h e r = x 2 + x 2 ⊙ g 1 x^{self}_1=x_1+x_1\odot g_1\\ x^{other}_2=x_2+x_2\odot g_2\\ x^{self}_1=x_1+x_1\odot g_2\\ x^{other}_2=x_2+x_2\odot g_1\\ x1self=x1+x1⊙g1x2other

API-Net是一种用于细粒度图像分类的新型网络结构,通过成对图像的比较来提升识别效果。网络包括互向量学习、门向量生成和成对交互三个子模块,能够自适应地发现对比线索并进行区分。在训练过程中,采用分数排名正则化,以确保每个图像从自身和对方的角度突出语义差异。实验表明,API-Net在细粒度分类任务上表现出优越性能,并且具有良好的可扩展性和即插即用的特性。
最低0.47元/天 解锁文章
866

被折叠的 条评论
为什么被折叠?



