目录
本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流, 另附:论文地址
一、文献摘要介绍
Exploiting relationships between visual regions and question words have achieved great success in learning multi-modality features for Visual Question Answering (VQA). However, we argue that existing methods mostly model relations between individual visual regions and words, which are not enough to correctly answer the question. From humans’ perspective, answering a visual question requires understanding the summarizations of visual and language information. In this paper, we proposed the Multi-modality Latent Interaction module (MLI) o tackle this problem. The proposed module learns the cross-modality relationships between latent visual and language summarizations, which summarize visual regions and question into a small number of latent representations to avoid modeling uninformative individual region-word relations. The cross-modality information between the latent summarizations are propagated to fuse valuable information from both modalities and are used to update the visual and word features. Such MLI modules can be stacked for several stages to model complex and latent relations between the two modalities and achieves highly competitive performance on public VQA benchmarks, VQA v2.0 and TDIUC . In addition, we show that the performance of our methods could be signifificantly improved by combining with pre-trained language model BERT.
作者认为,现有的视觉问答方法大多是对单个视觉区域和单词之间的关系进行建模,不足以正确回答问题。从人的角度来看,回答视觉问题需要理解视觉和语言的摘要。为此在本论文中,作者提出了多模态潜在交互模块(MLI)来解决此问题。这样的MLI模块可以堆叠多个阶段,以对单词和图像区域两种模式之间的复杂和潜在关系进行建模,实验表明在VQA v2.0数据集上,此方法更具有竞争性的性能。
二、网络框架介绍
下图展示了作者提出的Multi-modality Latent Interaction Network(MLIN)的整体流程,它是由一系列堆叠的多模态潜在模块组成,旨在将输入的视觉区域和问题词信息归纳为每种模态少量的潜在摘要向量,关键思想是在潜在的摘要向量之间传播视觉和语言信息,以便从全局角度对复杂的跨模式交互进行建模。
在潜在交互摘要向量之间传播信息之后,视觉区域和单词特征将汇总来自跨区域摘要的信息,以更新其特征。MLI模块的输入和输出具有相同的尺寸,整个网络将MLI模块堆叠为多个阶段,以逐步提纯视觉和语言特征。在最后阶段,将视觉和问题的平均特征之间进行元素乘法,以预测最终的答案。下面进行详细分析该框架。
2.1Question and Visual Feature Encoding
对于图像特征,首先使用Faster RCNN目标分类器从图片中提取视觉区域特征,然后每个图像将被编码为M个视觉区域特征,表示为。对于单词特征,使用双向Transformer模型从问题中提取单词特征,而句子将被填充为最大长度为14,并由具有随机初始化功能的双向Transformer编码,表示为
多模态特征编码可以表示为下面的公式。
其中,和
表示用于视觉和语言特征编码的网络参数。
2.2Modality Summarizations in MLI Module
摘要模型如下图所示。在获取视觉和问题特征后,我们添加了一个轻量级的神经网络,以针对每种模态生成K组潜在的视觉或语言摘要向量。
首先通过以下方式生成k组线性组合权重。
其中和
是每个模态的k组可学习的线性变换权重,
表示沿水平方向的softmax运算。然后,对于视觉和语言模态而言,各个视觉和单词特征
和
可以转换为k个潜在的摘要向量,
和
,公式如下。
k个潜在的视觉或语言摘要向量(即或
的每一行)中的每一个都是输入的单个特征的线性组合,与单个区域相比,它能够获取更高级的信息特征,每个模态中的k个摘要向量可以从全局角度获取特征的k个不同的方面。
2.3Relational Learning on Multi-modality Latent Summarizations
交互模型如下图所示。从摘要模型中获得的潜在的摘要向量,它是从一种模式中编码的高级信息。为了推理出与输入图像和问题相对应的正确答案,了解输入之间复杂的跨区域关系是非常重要的,因此作者提出利用关系学习网络来建立跨区域关联。
在这两种模态中,我们根据上面引入的k个潜在摘要向量和
创建k×k个潜在视觉问题特征对,这样的k×k对可以表示为3D关系张量
其中表示逐元素乘积,
是进一步变换跨区域特征的线性变换参数。
传播模型如下图所示。在两种模态之间传播信息以了解复杂的关系,进行答案预测非常重要。基于我们的跨模态关系张量A,我们介绍了两个操作,它们在配对特征之间传递和聚合信息。在信息传播之前,将张量重整为
。
第一个跨模式消息传递操作,对每个配对特征执行附加的线性变换,
其中和
是关系线性转换参数,将每个配对的特征
转换为新的512维特征。
第二个跨模式消息传递操作,执行在不同的成对特征之间传递的信息。k×k=36个成对的跨模式特征之间相互传递消息,可以将其视为“二阶”信息,用于学习更高的非线性交叉模态关系。
其中和
是关系线性转换参数,可以跨配对特征传播信息。
两次跨模态转换操作的结果都集中在跨模态配对特征的不同方面,以对输入图像个问题之间的复杂关系进行建模。第一个操作着重于建模每个单独的视觉潜在对之间的关系,第二个操作则尝试在所有视觉问题对之间传播更高阶的信息,以对更复杂的关系进行建模。是上述两个操作的结果之和,可以认为是一种潜在的表示形式,对两种模式下的潜在摘要向量之间的跨区域关系进行深度编码,定义如下。
特征聚合模型如下图所示。
潜在多模态表示包含融合后的问题和区域特征,每个原始的视觉特征
和单词特征
都可以聚合来自潜在表示
的信息,以提高其特征判别能力,这对最终的VQA准确性至关重要。这种特征聚合过程可以通过Transformer的key-query注意力机制进行建模。每个区域和单词特征(即
)都可以转换为128维的查询(query)特征,
,公式如下。
其中是用于计算查询特征(query)的线性变换参数。
潜在表示的每个特征(即)都将转换为128维的键(key)和值(value)特征
,如下。
其中,是用于根据潜在表示
来计算键(key)和值(value)特征的线性变换参数。
区域的查询特征个单词特征将用于对潜在表示中具有关键特征K的不同条目进行加权,公式如下。
其中表示沿垂直方向进行softmax操作,
是归一化常数,
存储每个区域或单词特征的权重,以聚合
个潜在表示,因此可以将原始区域更新为:
输入特征和输出特征
具有相同的维度,受先前方法的启发,我们将MLI模块堆叠为多个阶段,以循环的改进视觉和语言特征。在经过MLI模块的几个阶段后,我们分别的对视觉和单词特征进行平均池化操作,并计算逐元素乘积,以进行深度的提炼区域和单词特征,从而进行多模式特征融合。最终的预测器采用带有softmax非线性函数的线性分类器进行答案的预测,
因此,整个系统通过交叉熵损失函数以端到端的方式训练,进而优化整体答案。
三、实验分析
作者在VQAv2.0和TDIUC数据集分别进行实验。下面对参数进行简单的介绍,我们使用常见的特征提取、预处理和损失函数,对于视觉特征,对于VQA v2.0,我们提取了尺寸为2048维的前100个区域特征。 在TDIUC上,我们提取了前36个区域特征。区域特征由Faster RCNN生成。对于问题编码器,我们用0填充所有问题,最大长度为14,利用具有随机初始化的单层双向Transformer提取问题特征。在获取视觉和文字特征后,我们使用线性变换,将它们统一转换为512维。 对于所有的层,我们使用一个dropout=0.1和梯度修剪到0.25。Adamax优化器的默认批处理大小为512,学习速率为0.005。下图是在VQA- v2.0上面的消融研究。
默认设置是一层MLIN,其中所有特征被转换为512维。我们为每个模态创建6个摘要向量。 对于功能聚合key-query注意力模块,我们采用了12个head的multi-head注意力,每个头部计算128维特征。 在消融研究中,我们检查了MLIN堆栈数量、潜在摘要向量的数量、潜在交互、潜在传播、特征聚合和最终特征融合操作对模型的影响。
在VQA v2.0和TDIUC数据集上,我们将我们提出的MLIN方法与以往最先进的方法进行了比较,下图是比较结果。
下图是我们将前三个视觉注意力权重可视化,以创建视觉摘要向量。
四、结论
In this paper, we proposed a novel MLIN for exploring relationship for solving VQA. Inside MLIN, multi-modality reasoning is realized through the process of Summarisation, Interaction, Propagation and Aggregation. MLIN can be stacked several layers for better relationship reasoning. Our method achieved competitive performance on benchmark VQA dataset with much smaller message passing times. Furthermore, we show a good pre-trained language model question encoder is important for VQA performance.
实验结果表明,该方法优于其他最新方法。分析了好几篇论文,觉得提出一个模型,然后进行堆叠,对模型的结果影响还是很重要的,muti-head注意力模块,对于图像注意力还是十分重要的。