Hierarchical Co-Attention for Visual Question Answering---视觉问答的分层共同注意力

最新推荐文章于 2024-03-25 16:32:19 发布

原创

最新推荐文章于 2024-03-25 16:32:19 发布 · 1.5k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #计算机视觉 #python

本文介绍了一种新的视觉问答(VQA)模型，该模型通过共同注意力机制同时关注问题和图像，构建了一个在单词、短语和问题三个层级上共同参与推理的层次结构。模型在VQA和COCO-QA数据集上表现优秀。

分层共同注意力

声明：本文主要是简单整理自己对这篇论文的认识和理解，如有错误的地方，还望批评指正。

本文介绍关于Hierarchical Co-Attention这篇论文，与前面堆叠式注意力网络不同的是，这篇论文的注意力同时关注了问题和图像。

Abstract—摘要

以往的视觉问答的注意力模型，只关注与问题有关的图像区域。本文提出一个新的VQA共同注意模型。该模型不仅对视觉注意进行建模，还对问题注意进行建模。该模型共同引起了关于图像和问题注意的推理，此模型通过新颖的一维卷积神经网络以分层的方式对问题（以及因此通过注意力机制生成的图像）进行了推理。

1、Introduction—引言

视觉问答已成为学术界和行业中一个突出的多学科研究问题，最近，已经针对VQA探索了基于视觉注意的模型，其中注意机制通常会生成一个空间图，该空间图能够突出显示与回答问题有关的图像区域。但，他们的模型都集中在识别“在哪里看”或视觉注意力上。本文中，我们认为识别“听哪些单词”或问题注意力同样重要。因此本文提出一种新颖的VQA多模式注意力模型，具有如下两个功能：

Co-Attention : 本文提出一种新的机制，它能共同引起视觉注意和问题注意的推理。与以往只关注注意力的模型不同，本文的模型在问题和图像之间具有自然的对称性。因为图像表示可用于引导问题的注意力，而问题表示可用于引导图像的注意力。
Question Hierarchy：本文构建一个层次结构，该结构在三个级别上共同参与图像和问题。如下

(1) 单词级别：通过嵌入矩阵将单词嵌入到向量空间中。
(2) 短语级别：一维卷积神经网络用于捕获包含在unigrams、bigrams和trigrams中的信息。具体来说，我们将单词表示与支持不同的时间过滤器进行卷积，然后将各种n-gram相应合并到单个短语级别表示中来进行组合。
(3) 问题级别：我们使用循环神经网络对整个问题进行编码，对于此层次结构中问题表示的每个级别，我们构建联合了问题和图像的共同注意力图，然后将它们进行递归组合以最终预测答案的分布。

本文主要贡献：

为VQA提出了一种新颖的共同注意机制，该机制共同执行问题引导的视觉注意和图像引导的问题注意。通过两种决策（并行和交替共同注意）探讨这种机制。
提出一个层次结构表示问题，在三个不同级别上构造了图像-问题共同注意图：单词级别，短语级别，问题级别。然后将这些共同参与的功能从单词级别到问题解部递归组合来进行最终答案预测。
在短语级别上我们提出一种新的卷积池策略，以自适应地选择短语表示形式，将其表示传递给问题级别表示形式。
我们在两个大型数据集VQA和COCO-QA上评估了我们提出的模型。

本文模型如下图：
图中给定一个问题，分别提取其词级，短语级和问题级嵌入，在每个级别上，都会同时关注图像和问题，最终答案预测是基于所有共同参与的图像和问题特征。
在这里插入图片描述

2、Related Work—相关工作

3、Method—算法

首先介绍符合。为了便于理解，本文将分部分描述整个模型，首先3.2描述分层问题表示形式，然后在3.3节中描述了提出的共同注意力机制，最后3.4节展示了如何问题和图像特征组合来输出答案。

3.1 Notation—符号

$Q=\{q_1,q_2,...,q_T\}$ :包含T个单词的问题。
$q_t$ ：代表第t个单词的特征向量。
$qtwq^w_t$ : 代表位置t处的单词嵌入
$qtpq^p_t$ : 代表位置t处的短语嵌入
$qtsq^s_t$ : 代表位置t处的问题嵌入
$V=\{v_1,v_2,...,v_N\}$ ：表示图像特征。
$v_n$ ：是空间位置n处的特征向量。
$v^r\hat{v}^r$ 和 $q^r\hat{q}^r$ ：图像和问题在层次中每个级别的共同注意特征表示
$w,p,s}r\in\{w,p,s\}$ 。
$W$ :表示不同模块/层的权重。

3.2 Question Hierarchy

给定问题单词的one-hot编码 $Q=\{q_1,q_2,...,q_T\}$ ，我们首先将单词嵌入向量空间（端到端学习）获得 $q1w,q2w,...,qTw}Q^w=\{q^w_1,q^w_2,...,q^w_T\}$ ,为了计算短语特征，本文在单词嵌入向量采用一维卷积。具体地，在每个单词位置，本文使用三个窗口大小的过滤器（unigram,bigram,trigram）计算单词向量的内积。对于第t个单词，窗口大小为s的卷积输出为：
$q^s,tp=tanh(Wcsqt:t+s−1w),s∈{ 1,2,3}\hat{q}^p_{s,t} = tanh(W^s_cq^w_{t:t+s-1}),s\in\{1,2,3\}$
其中 $WcsW^s_c$