CVPR2018 | 改进的Dense Co-attention视觉问答模型的

最新推荐文章于 2024-12-05 17:46:29 发布

a609640147

最新推荐文章于 2024-12-05 17:46:29 发布

阅读量1.5k

点赞数

文章标签：人工智能论文 CVPR

本文链接：https://blog.youkuaiyun.com/a609640147/article/details/89100037

版权

本文《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual for Visual Question Answering》提出了一种采用Dense连接的Co-Attention机制对图片与问句信息进行交互融合,并利用级联的方式对图片和问句的信息进行多次更新。

论文地址:
https://arxiv.org/pdf/1804.00775.pdf

引言

解决VQA(Visual Question Answering)问题的关键在于如何从图片和问题中提取有用的特征, 并将二者进行有效地融合。对于问题特征的提取一般都利用RNN对其进行编码, 而对于图片特征会采用预训练好的Res-net对图像块进行编码。目前对于VQA问题的研究路线分为两个主要部分, 一是更好的attention机制, 二是改进的特征融合方式。一般而言这两部分分属于模型独立模块, 而本文认为两者是有联系的, 应该进行有机的结合, 因而提出了一种新的co-attention机制来改善视觉特征与语言特征的融合。

数据集

VQA任务中主要使用VQA 2.0数据集来进行训练、验证和测试，数据集包含的数据量如下表所示。

模型概况

模型大致分为三个部分, 特征提取模块, 级联的Dense Co-attention模块, 以及分类器. 如下图所示。
模型概括
其中 $Q$ 是词级别的问题编码, $V$ 是图片特征的编码. $Q_n$ , $V_n$ 是经过第n个Dense Co-attention 模块融合后的问题与图片编码。Answer Prediction是一个两层的非线性分类器。

问题与答案的特征提取

问题问句和答案的信息都采用, bi-directional LSTM(concatenate) 进行编码.

对于答案的编码: 假设有一个答案有M个词, word embedding为 ${e_{1}^{A},...,e_{M}^{A}}$
经过Bi-LSTM后得到 $S_A = [\vec{a_{M}}^{T}, \overleftarrow{a_{1}^{T}}]^T$

图片特征的提取

图片采用的是Grid特征(如下图所示), 将每一个grid送入预训练好的
ResNet-152, 取其中4个conv-layers的输出, 对应的尺寸
分别为(256x112x112, 512x56x56, 1024x28x28, 2048x14x14).
图片grid
再采用不同的max pooling尺寸和卷积层将4种尺寸的特征,转换为统一的 $\times T$ , 其中 $14\times14$ .
最后为4种特征做加权. 使用一个两层的全连接层, 隐层节点724,激励为Relu,输出节点为4. 对输出结点[s1, s2, s3, s4]做softmax. 得到加权的权重.
$s_1, s_2, s_3, s_4] = MLP(s_Q)$

Dense Co-Attention Module

模块结构如下图所示:
输入:
$Q_{l} = [q_{l1},...,q_{lN}] \in \R^{d\times N}$ ,
$V_{l} = [v_{l1},...,v_{lT}] \in \R^{d\times T}$
输出:
$Q_{l+1} \in \R^{d\times N}$ ,
$V_{l+1} \in \R^{d\times N}$
Dense Co-Attention Module

Dense Co-attention Mechanism

Dense Co-attention Mechanism为上图红框部分, 结构如下图所示.

常规的Co-attention一般分为以下几个步骤:

本文采取multi-head机制计算图片和问题的相关矩阵, 在特征维度 $d$ 上做切分, 假设head数为h, $d_{h}=d/h$
multi-head co-attention computation