论文阅读:API-Net

API-Net是一种用于细粒度图像分类的新型网络结构,通过成对图像的比较来提升识别效果。网络包括互向量学习、门向量生成和成对交互三个子模块,能够自适应地发现对比线索并进行区分。在训练过程中,采用分数排名正则化,以确保每个图像从自身和对方的角度突出语义差异。实验表明,API-Net在细粒度分类任务上表现出优越性能,并且具有良好的可扩展性和即插即用的特性。

Learning Attentive Pairwise Interaction for Fine-Grained Classification

2020 AAAI。网络结构倒是不复杂,但是这么大的batch size要怎么跑起来。

摘要

动机:目前方法都是通过单张图像学习区分性表示,而人类可以通过比较图像对来有效地识别。

网络:注意力成对交互网络(API-Net),通过交互逐步识别成对的细粒度图像。

  1. 先学习一个共同的特征向量,捕获输入对中的语义差异
  2. 将该向量与各个向量比较,为每个输入图像生成门
  3. 端到端,分数排序正则化

代码:https://github.com/PeiqinZhuang/API-Net

1 引言

人类是在比较中识别细粒度对象的。

引入注意力成对交互网络API-Net,可以从一对细粒度图像中自适应地发现对比线索,并通过成对交互进行区分。

API-Net由三个子模块组成,即相互向量学习,门向量生成和成对交互。输入一对图像,先学习一个互矢量,以将输入对的对比线索概括为上下文。再将互向量与单个向量进行比较生成不同的,可以从每个单个图像的角度突出显示语义差异。将这些门作为区分性注意力执行成对交互。每个图像可以生成两个增强的特征向量,分别从其自身的门矢量和该对中另一个图像的门矢量激活。通过端到端的训练方式和分数排名正则化。

即插即用。

2 API-Net

image-20210525105306979

2.1 互矢量学习

两张图片分别经过主干网络生成 D D D维特征向量 x 1 , x 2 x_1,x_2 x1,x2,映射函数(多层感知机)学习一个 D D D维互矢量 x m = f m ( [ x 1 , x 2 ] ) x_m=f_m([x_1,x_2]) xm=fm([x1,x2])。由于 x m x_m xm是两个的自适应总结,通常包含特征通道,指示成对的高层次的对比线索。

2.2 门向量

x m x_m xm作为指导,寻找每个 x i x_i xi包含的对比线索,生成门:
g i = s i g m o i d ( x m ⊙ x i ) , i ∈ { 1 , 2 } g_i=sigmoid(x_m\odot x_i),i\in \{1,2\} gi=sigmoid(xmxi),i{ 1,2}
g i g_i gi成为有区别的注意力,以不同角度指出了每个 x i x_i xi的语义差异。

2.3 成对交互

通过门向量进行成对交互:
x 1 s e l f = x 1 + x 1 ⊙ g 1 x 2 o t h e r = x 2 + x 2 ⊙ g 2 x 1 s e l f = x 1 + x 1 ⊙ g 2 x 2 o t h e r = x 2 + x 2 ⊙ g 1 x^{self}_1=x_1+x_1\odot g_1\\ x^{other}_2=x_2+x_2\odot g_2\\ x^{self}_1=x_1+x_1\odot g_2\\ x^{other}_2=x_2+x_2\odot g_1\\ x1self=x1+x1g1x2other

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值