【论文阅读】Stacked Cross Attention for Image-Text Matching

ccc_irene

已于 2022-05-25 19:36:55 修改

阅读量3.2k

点赞数 8

分类专栏：图文匹配文章标签：自然语言处理机器学习深度学习图文匹配

于 2021-10-11 20:10:30 首次发布

本文链接：https://blog.youkuaiyun.com/qq_41433316/article/details/120705709

版权

Stacked Cross Attention for Image-Text Matching

论文发表时间：2018
论文作者：Kuang-Huei Lee1, Xi Chen1, Gang Hua1, Houdong Hu1, and Xiaodong He2?
论文地址：https://arxiv.org/abs/1803.08024
代码地址：https://github.com/kuanghuei/SCAN

介绍

作者认为，在某种意义上，句子的描述属于弱注释，也就是说，句子里的那些单词对应于图片中一些具体的，但是是未知的区域。通过捕捉视觉和语言之间细粒度的相互作用，来推断图片区域和句子之间的潜在联系，是实现更易于理解的图片-文本匹配的关键。

在此前的科研工作中，大多的图文匹配模型会在粗粒度的层面来检测图片区域，并简单地将所有可能的(图像区域和句子中的单词对)的相似性聚合起来，从而推断全局图像-文本的相似性。但这样就会发现，他们其实没有考虑到单词的重要性可能是会取决于视觉语境的。

因此在本文中，作者将不同重要的图像区域和单词作为上下文来推断图像文本之间的相似性。即堆叠交叉注意机制。这分成两个步骤：

对于一个给定的图像和文本，首先处理与每个图像区域有关的句子中的单词
将每个图像区域和句子中出现的单词信息进行比较，来确定图像区域的重要性。

同理，如果是文本-图像对，就会先处理与每个单词有关的图像区域，来决定每个单词的重要性

方法

图像预处理

使用自下而上的注意力机制Faster-RCNN来提取前36个重点图像区域，对于区域i特征，经过平均池化和全连接后，得到该区域的编码 $v_{i}=W_{i}f_{i}+b_{i}$ ，这样图像 $V=\{v_{1},...,v_{k}\}$ ，这里的k指的是图像区域个数，为36个

文本预处理

对于单词 $w_{i}$ ，使用嵌入矩阵得到单词的嵌入向量 $x_{i}=W_{e}w_{i}$ ，随后使用一个双向GRU网络得到单词编码 $e_{i}=\frac{\overrightarrow{h_{i}}+\overleftarrow{h_{i}}}{2}$ ，其中 $\overrightarrow{h_{i}}=\overrightarrow{GRU}(x_{i}),\overleftarrow{h_{i}}=\overleftarrow{GRU}(x_{i})$ 。双向GRU网络可以结合上下文信息，而不是只有上文或者只有下文信息。这样文本 $E=\{e_{1},...,e_{n}\}$ ，其中n表示单词个数