Holistic Multi-modal Memory Network for Movie Question Answering心得体会

最新推荐文章于 2024-11-04 08:17:43 发布

untitled713

最新推荐文章于 2024-11-04 08:17:43 发布

阅读量326

点赞数

文章标签：机器学习 vqa

本文链接：https://blog.youkuaiyun.com/untitled_/article/details/105468526

版权

本文提出了一种整体多模态记忆网络（HMMN）框架，用于电影问答任务，该框架在每一步都充分考虑了多模态上下文、问题和答案之间的交互，有效集成信息，提高了回答质量。与传统方法相比，HMMN在上下文检索阶段就考虑了答案选择，增强了推理过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

根据多模态情景回答问题是一个具有挑战性的问题，因为它需要对不同的数据源进行深度集成。现有的方法只在一个关注跳中使用数据源之间的部分交互。本文提出了一个完整的多模态记忆网络(HMMN)框架，该框架充分考虑了不同输入源(多模态上下文、问题)在每一跳中的相互作用。此外，它在上下文检索阶段考虑答案选择。因此，该框架有效地集成了多模态上下文、问题和答案信息，从而为问题回答检索到更多的情景信息。
文章链接：Holistic Multi-modal Memory Network for Movie Question Answering
一、文章引入
多模式QA的一个关键挑战是集成来自不同数据源的信息。在MovieQA的上下文中，既要考虑查询上下文注意，也要考虑视频和字幕之间的多模态注意。
《Movie question answering:Remembering the textual cues for layered visual contents》提出在MovieQA中利用跨模态注意。然而，他们的方法并没有完全整合输入数据，因为不同的注意力阶段会考虑问题、视频、上下文检索字幕之间的不同交互子集。此外，答案选择只在系统的最后一步才会被考虑，因为它们是与输入数据的完整表示相匹配的，因此，答案选择之间有用的情景内容并没有被有效地用来确定输入数据的相关部分。
为了解决这些局限性，本文提出了整体多模态存储网络(HMMN)框架。首先，框架采用了模式间的和上下文查询的注意机制，以便在每一跳中有效地进行数据集成。具体地说，该机制整体地调查视频、字幕、问题、答案选项，以获得每个注意力跳中的上下文摘要。这与现有的方法不同，现有方法只考虑每个跳中的交互作用的子集。因此，在建模上下文之间的多模态关系时，需要联合考虑查询与上下文的关系。其次，本文的框架不仅在答案预测阶段考虑答案选择，而且在上下文检索阶段也考虑答案选择。
二、文章框架
在这里插入图片描述
图一：多模态特征学习框架。整体多模态存储网络单元整体融合了多模态上下文(视频、字幕)、问题和答案选择。该框架在每一个注意跳中都综合考虑了模态间和上下文查询的注意，并在上下文检索和答案预测阶段都考虑了答案的选择。

假设字幕句子和框架具有相同的特征维度。在MovieQA数据集中，每个问题都与几个相关的视频剪辑对齐。获得LMN的帧和句子的特征。
令S∈R^d×m表示字幕模态，其中d为特征向量的维数，m为字幕句数。对于字幕模态，不仅将字幕句收集到相关的视频片段中，还可以将附近的字幕句合并起来，利用上下文信息。字幕中单词的word2vec特征尺寸为d_w。利用投影矩阵W₁∈R^dw×d将每个单词的word2vec表示投影到d-dim，然后对每个句子中的所有单词进行平均池化，得到句子的表示形式。
同样，V∈R^d×n表示视频模态，其中d为特征向量的维数，n为帧数。从相关的视频剪辑中为每个问题选择固定的帧数。通过调查词汇表中区域特征与单词表示之间的注意力，生成帧级表示，利用W₂∈R^dr×dw将区域VGG特征投影到d_w-dim中，以匹配单词表示的维数。这里d_r是区域特征的维数。使用词汇表单词特征表示区域特征，通过平均池化生成帧级表示，最后进行W₁投影。
问题和候选答案与字幕句的表达方式相同。问题表示为向量q∈R^d。每个问题的答案选择表示为A = [a₀,a₁,a₂,a₃,a₄]∈R^d×5，其中每个答案被编码为a_k∈R^d。在整个框架中，只有W₁和W₂是可学习的。为字幕和视频模式生成表示的结构如图2(a)所示。
2.1 End-to-end Memory Network
端到端内存网络(E2EMN)最初是为答题任务而提出的，其目的是根据文本上下文从词汇表中选择最可能的单词作为答案。在MovieQA中，E2EMN适用于具有多选择答案的多模态问题回答。特别是，来自两种模式的分数被后期融合以做出最终预测。由于E2EMN是为文本问题回答而设计的，因此该方法只能处理来自单一模态的上下文。这里我们用来解释字幕模式。
在E2EMN中，上下文S的输入特征被视为内存槽。使用内存插槽和查询(在这里问题用作查询)作为输入，根据查询和内存插槽之间的相关性得出上下文摘要。查询q与每个内存槽的匹配是通过内积后面跟一个softmax来计算的:
在这里插入图片描述
αi表明第i个字幕句子对查询的重要性。上下文摘要u通过基于αi的字幕句子特征的加权和来计算：

然后，将答案选项ai与查询表示q和上下文摘要u进行比较，做出答案预测:

其中p∈R⁵是置信向量。这里5是MovieQA的候选答案数量。可以在多个跳跃点中执行导出上下文摘要的过程，其中一层的输出可以用作下一层查询的一部分。
2.2 Holistic Multi-modal Memory Network (HMMN)
与E2EMN不同，HMMN框架采用多模式上下文作为输入。HMMN框架共同研究了多模态上下文和问题之间的交互。通过这样做，在对上下文之间的多模式关系进行建模时，可以同时考虑查询与上下文的关系。此外，它不仅通过候选答案，还可以从多种模式总结上下文的过程中进行答案预测。
推理过程是通过堆叠小的构建块，称为HMMN单元来完成的。HMMN细胞的结构如图2(a)所示。每个HMMN单元将问题、一个答案选项、视频和字幕中的上下文作为输入，并得出可感知答案的上下文摘要。作者称这个过程为一跳推理。设u_t^k为选项k的第t个推理跳的输出，第t个跳的输出将作为第t +1跳的输入。
（1）涉及上下文检索中的答案：HMMN单元在上下文检索阶段将候选答案合并为查询的一部分。第t跳的第k个答案的查询是通过结合前一跳u^k_t−1的输出、问题q和候选答案a_k计算的:
在这里插入图片描述
其中λ是问题和查询其余部分之间的折衷参数。
在上下文检索阶段结合答案选项的直觉是模仿学生在阅读测试中选择多项问题的行为。当上下文比较长且复杂时，快速有效地回答问题的方法是定位与每个答案选项相关的信息。对于一个答案选项，如果检索到的答案感知上下文与候选答案传达了类似的思想，那么它往往是正确的答案。相反，如果检索到的上下文具有不同的语义含义，那么答案很可能是错误的。
（2）整体地考虑每一跳中不同的注意力机制:本文的框架不只是考虑查询和多模式上下文之间交互的一个子集，而是共同考虑每一跳中的模式间和上下文查询的注意力策略。
HMMN单元使用查询q从多模式上下文中收集描述性信息，其中，问题，候选答案，视频，字幕之间的交互是整体利用的。特别是，通过执行上下文查询注意力（表示为（q→S）），利用更新后的查询来突出显示S中的相关字幕语句。结果重新加权的字幕模态表示为S*：
在这里插入图片描述
相关的字幕句子越多，权重越大。
通过使用视频模态V加入字幕模态S（表示为（V→S*））来应用模式间注意推理，该模式旨在生成用于帧的字幕识别表示V*。每个帧都根据相关性用所有字幕句特征的加权和表示：
在这里插入图片描述
可以将有关查询q的结果V汇总为跳跃点输出。关于第k个答案的第t跳上下文摘要记为u_t^k：

在每个推理跳中，前一跳的输出、答案选项、问题、多模态上下文被整体集成。使用V来关注S(而不是使用S来关注V)的原因是，对于MovieQA任务来说，字幕模态比视频模态提供的信息更多。通常，字幕模态包括对故事的描述，如角色关系、故事发展。通过关注S, S中的特征表示将被用来形成上下文摘要。重新加权的S作为一个信息筛选步骤，以获得字幕模态的更多信息表示。
（3）用亲和力得分预测答案：在原始E2EMN中显示，多跳设置可改善结果。我们堆叠HMMN单元以进行T跳推理。给定关于候选答案a_k的最终上下文摘要u^k_T，生成a_k的亲和力得分f_k。该分数是通过将问题和可感知答案的上下文摘要的总和与候选答案进行比较而得出的：
在这里插入图片描述
此分数表示检索到的上下文是否具有与答案选项一致的语义含义。亲和度得分的生成结构如图2(b)所示。然后将所有答案选项的亲和评分传递给softmax函数，得到最终的答案预测结果，如图2©所示，采用标准随机梯度下降法使交叉熵损失最小化。这表明，如果一个答案选项与感知答案的上下文摘要相匹配，那么它很可能是正确的答案。
在这里插入图片描述图2：(a) t-th跳的HMMN细胞，(b)答案选择ak的亲和评分生成器，©预测结构。(b)中T为跳数，也表示堆叠的HMMN细胞数。
三、实验结果

验证集和测试集的最新方法的比较。

不同注意力策略的基线在验证集上的性能。