Bi-Modal Progressive Mask Attention for Fine-Grained Recognition
文章目录
摘要
语言模态聚合被证明是一种改善视觉识别的技术。
本文提出渐进式掩模注意力(PMA)模型,通过利用视觉和语言双模态进行细粒度识别。模型既能通过基于掩模的方式逐步捕获视觉模态中最具区别性的部分,又能在交互对齐方式中探索语言模态中的知识。
- 自我注意模块,从图像或文本描述中关注图像中的关键块
- 查询-关系模块,抓住文本的关键词或短语,在两种方式之间建立联系。
- 从多个阶段学到的双态表示被汇总为最终的识别特征。
模型需要原始图像和原始文本描述。
论文中CUB和FGVC-Aircraft的文本描述不知道在哪里,给的网址是16年用文本检索图的论文,但是人家也没公开这些数据呀。
1 引言
本文提出渐进式掩模注意力(PMA),该方法探索了用于细粒度识别的双态分析。PMA统一采用了一种渐进式掩模策略,可同时应用于视觉和语言模态。文本描述是较弱的监督,并且可提供视觉域无法显示的语义。
为将PMA应用于细粒度识别,提出了双模态渐进式掩模注意力(Bi-Modal PMA)模型,可以从视觉和文本中获取关键信息。通过CNN和LSTM分别将原始图像和文本处理为视觉描述符和词嵌入,两种表示经过双态PMA中以产生联合表示。自注意力机制定位关键部分,或捕获语言模态中的知识。查询-关系模块连接它们。由于提出了注意力,可以对齐两种模态的表示,并获得更多的判别性和丰富的联合特征。可以同时获取全局图像特征,部分图像表示,全局文本特征和对齐的部分文本表示。
渐进式掩模策略可以堆叠多个PMA模块。基于掩模的策略,以丢弃视觉中对象的定位部分,并同时过滤掉语言中定位部分的相关名词短语。
针对没有文本的情况,开发了一种知识蒸馏方法,将双态PMA在的泛化能力提炼成只能处理图像数据的学生模型,仅使用测试图像就能够做出准确的预测,性能和用视觉和语言模型的准确性相匹配。
文章的主要工作:
- 统一框架PMA,结合视觉和语言
- 基于注意力的方法,捕获重要的对象部分以形成部分级别的表示形式。基于掩模的阶段性策略来堆叠这些注意单元。整个模型可以逐步找到一组具有区别性但不同的关键部分,或者使用文本描述来提供视域外的知识
- 知识蒸馏
- 实验
3 方法
3.1 符号
SAM模块
自注意力模块,从单一模态收集语义
$$ SAM(x)=W_2\cdot\delta(W_1\cdot x) $$
x x x是 d d d维的位置向量,输出是该位置的注意力程度。
QRM模块
查询-关系模块,建立起视觉和语言双态之间的联系。引导视觉特征来查询语言模态中的相关的关键
$$ QRM(x,y)=y\odot(W_q, x) $$
得到y与x的相似程度
掩模模板
M = { m 1 , . . . , m n } M=\{m_1,...,m_n\} M={ m1,...,mn}
n n n与输入向量的数量一致,视觉态和语言态的对应掩模模板分别是: M V = { m 1 v , . . . , m n v } M^V=\{m_1^v,...,m_n^v\} MV={ m1v,...,mnv}、 M T = { m 1 t , . . . , m n t } M^T=\{m_1^t,...,m_n^t\} MT={ m1t,...,mnt}。(输入向量的个数式位置的个数)。 m i m_i mi要么是 0 0 0要么是 − ∞ -\infty −∞。
3.2 视觉态PMA
自我注意力机制定位原始图像最区分性部分。将PMA应用到注意力模块中,以逐步地获得一组不同且不重叠的部分。对于每个阶段,使用掩模丢弃上一个阶段中的定位部分,可以在不同阶段定位具有区别性且不同的部分。 还将通过注意力权重和判别性部分特征计算出的全局图像语义汇总为单个阶段的最终状态。
现阶段的区别部分的特征向量将在语言模态中用于文本指导。

输入
图像 -> 卷积 -> 特征图 X ∈ R h × w × d X\in R^{h\times w\times d} X∈Rh×w×d -> 2*2最大值池化 -> X ~ \tilde{X} X~。 X ~ \tilde{X} X~视作若干 d d d维向量, X ~ = { x 1 ~ , . . . , x n ~ } \tilde{X}=\{\tilde{x_1},...,\tilde{x_n}\} X~={ x1~,...,xn~}。
视觉表示
每个位置的注意力权重由对应的位置计算得到:
a i v = exp ( S A M ( x i ~ ) + m i v ) ∑ j = 1 n exp ( S A M ( x j ~ ) + m j v ) a^v_i=\frac{\exp(SAM(\tilde{x_i})+m^v_i)}{\sum^n_{j=1}\exp(SAM(\tilde{x_j})+m^v_j)} aiv=∑j=1nexp(SAM(

最低0.47元/天 解锁文章
2741

被折叠的 条评论
为什么被折叠?



