视觉问答(Visual Question Answering, VQA)任务的主流方法通过学习图像和问题的多模态联合表示,再输入到答案预测模块得到答案。这是目前被证明的有效的方法,但是当前主流方法对目标间关系信息的提取还不充分,这影响了对场景以及目标之间交互的理解。本文提出了一种问题自适应的多种关系感知的图注意力网络来解决VQA问题。
论文地址:
https://arxiv.org/pdf/1903.12314.pdf
引言
目前处理VQA问题的前沿方法,都是聚焦于学习一个图像和问题的多模态联合特征表示。这种思路虽然被证明是有效的,但是在图像和问题间依然存在明显的语义隔阂,不能充分提取和利用目标间的关系信息。本文引入新的关系编码器用于获取目标间的关系信息,并提出了关系感知图注意力网络。
模型
整个模型包括视觉和问题特征提取模块、关系特征编码模块、图像问题多模态特征融合模块及答案预测分类模块。视觉特征是使用预训练的Faster RCNN生成一系列的目标区域候选框,取得分最高前36个框在全连接层输出作为对应目标框的特征,其维度为
u
×
2048
u×2048
u×2048;除了图像特征本文还使用了框的空间位置信息,即四维的bounding-box坐标(x,y,w,h)。问题特征是通过截取问句的前14个词,经过词嵌入成600维的词向量,不足14个词的问句词向量补0对齐。再采用双向的GRU和问题自注意力机制把词向量编码成1024维的特征。分别将图像和问题特征作为关系模块的输入。本文使用了三种图关系模块:空间图、语义图、隐式关系图,其中空间图和语义图属于显示关系图。三种关系图以每个目标框的图像特征作为节点,以每个目标间的关系为边,独立的预测结果,三个结果经过加权得到最终的预测结果。下图为一个关系图的整体结构。
关系图模块
本文的关系图包括显示关系图和隐式关系图,其中显示关系图又分为空间图和语义图。每种图结构都使用了问题自适应图注意力机制。隐式关系图属于全连接图,任意两个节点间都存在边,边的权重通过学习得到,没有引入任何先验信息。空间关系图为经过剪枝的稀疏图,根据两个目标的IOU、目标中心点距离及角度将空间关系类型分为11种,再加一种没有关系的类别共12种空间关系。语义图也是稀疏图,语义关系图的边类型是使用Faster-RCNN和ResNet-101并采用vg数据集训练的。本文只取频率最高的14种语义关系,外加一种没有关系的类型共15种语义关系。
具体的计算过程如下:
(1) 首先拼接图像特征与问题特征。
将问题 特征拼接到各个图像特征上。
K
K
K为目标框数,本文取36。
(2) 多头图注意力机制。
三种关系图分别进行注意力操作,且都使用了多头注意力。
(3) 隐式关系编码
其中$ \alpha^v_{ij}$为视觉权重,表示视觉特征相似性。
α
i
j
b
\alpha^b_{ij}
αijb为几何权重,表示几何位置相关性。
f
b
(
.
,
.
)
f_b(.,.)
fb(.,.)计算相对几何特征,再经过正弦余弦函数编码成指定维度。
(4)显式关系编码
语义关系和空间关系的计算过程一样,
d
i
r
(
i
,
j
)
dir(i,j)
dir(i,j)用于选择边的方向。$ lab(i,j)$为边的标签。
(5)多模态融合与分类预测
本文使用了三种融合方法:
Bottom-up Top-down (BUTD)
Multimodal Tucker Fusion (MUTAN)
Bilinear Attention Network (BAN)
最后将三种预测结果加权求和:
实验结果
VQA2.0 validation上的三种方法对比:
VQA2.0的预测结果:
结论
本文提出了一种关系感知问题自适应的图注意力网络(ReGAT),通过三个关系编码器提取目标间的隐式关系、空间关系、语义关系,并分别进行结果预测。三种关系模块和问题自适应对结果都有一定程度的提升。本文方法在VQA数据集上达到了前沿的水平。

扫码识别关注,获取更多论文解读