论文阅读：Bi-Modal PMA-优快云博客

Bi-Modal Progressive Mask Attention for Fine-Grained Recognition

文章目录

Bi-Modal Progressive Mask Attention for Fine-Grained Recognition
- 摘要
- 1 引言
- 3 方法
- - 3.1 符号
  - 3.2 视觉态PMA
  - - 输入
    - 视觉表示
    - PMA
  - 3.3 语言态PMA
  - - 输入
    - 语言表示
    - PMA
  - 3.4 特征聚合
  - 3.5 知识蒸馏
- 4 实验

摘要

语言模态聚合被证明是一种改善视觉识别的技术。

本文提出渐进式掩模注意力（PMA）模型，通过利用视觉和语言双模态进行细粒度识别。模型既能通过基于掩模的方式逐步捕获视觉模态中最具区别性的部分，又能在交互对齐方式中探索语言模态中的知识。

自我注意模块，从图像或文本描述中关注图像中的关键块
查询-关系模块，抓住文本的关键词或短语，在两种方式之间建立联系。
从多个阶段学到的双态表示被汇总为最终的识别特征。

模型需要原始图像和原始文本描述。

论文中CUB和FGVC-Aircraft的文本描述不知道在哪里，给的网址是16年用文本检索图的论文，但是人家也没公开这些数据呀。

1 引言

本文提出渐进式掩模注意力（PMA），该方法探索了用于细粒度识别的双态分析。PMA统一采用了一种渐进式掩模策略，可同时应用于视觉和语言模态。文本描述是较弱的监督，并且可提供视觉域无法显示的语义。

为将PMA应用于细粒度识别，提出了双模态渐进式掩模注意力（Bi-Modal PMA）模型，可以从视觉和文本中获取关键信息。通过CNN和LSTM分别将原始图像和文本处理为视觉描述符和词嵌入，两种表示经过双态PMA中以产生联合表示。自注意力机制定位关键部分，或捕获语言模态中的知识。查询-关系模块连接它们。由于提出了注意力，可以对齐两种模态的表示，并获得更多的判别性和丰富的联合特征。可以同时获取全局图像特征，部分图像表示，全局文本特征和对齐的部分文本表示。

渐进式掩模策略可以堆叠多个PMA模块。基于掩模的策略，以丢弃视觉中对象的定位部分，并同时过滤掉语言中定位部分的相关名词短语。

针对没有文本的情况，开发了一种知识蒸馏方法，将双态PMA在的泛化能力提炼成只能处理图像数据的学生模型，仅使用测试图像就能够做出准确的预测，性能和用视觉和语言模型的准确性相匹配。

文章的主要工作：