这周研读了一篇文章,题目是《Progressive Attention Memory Network for Movie Story Question Answering》,这篇文章发表于CVPR2019,发表机构是 Korea Advanced Institute of Science and Technology 和Samsung Research。文章链接如下: Progressive Attention Memory Network for Movie Story Question Answering
一、文章引入
人类具有先天的认知能力,可以从不同的感觉输入中推断出5W和1H的问题,这些问题涉及who,what,when,where,why以及how,在机器上复制这种能力一直是人类的追求。 近年来,关于问题回答(QA)的研究已成功地受益于深度神经网络,并显示出对textQA,imageQA,videoQA的显着改进。 本文考虑了电影故事QA ,旨在通过观察与时间对齐的视频和字幕后回答有关电影内容和故事情节的问题,来共同理解视觉和语言。 与VQA相比,电影故事质量检查在以下两个方面具有挑战性:(1)很难确定与问题相关的时间部分,因为电影通常长于一个小时;(2)在需要不同问题的地方同时具有视频和字幕 不同的方式来推断答案。
为了解决上述挑战,本文提出了一种针对电影故事QA的渐进式注意力存储网络(PAMN)。 PAMN包含三个主要功能: (1)渐进式注意力机制,用于精确定位所需的时间部分;(2)动态模态融合,以自适应地融合以问题为条件的模态;以及(3)信念校正答案方案,依次修正每个候选答案的预测分数。渐进式注意力机制利用问题和答案中的线索来修剪每个记忆的不相关的时间部分。在迭代地询问问题和答案以产生时间注意力时,会逐渐更新内存以累积提示,以找到用于回答问题的相关时间部分。与堆叠式注意力相比,渐进式注意力在单个框架中考虑了多个来源(例如Q和A)和多个目标(例如视频和字幕记忆)。动态模态融合通过自适应确定每种模态的贡献来汇总每个内存的输出。在当前问题的条件下,贡献是通过软注意力机制获得的。通过双线性运算融合多模态数据通常需要大量计算或大量参数。动态模态融合通过从不必要的模态中丢弃毫无价值的信息来有效地集成视频和字幕模态。信念校正答案方案依次校正每个候选答案的预测分数。当人类解决问题时,他们通常以迭代的方式阅读内容,提问和回答多次。这种观察是通过信念校正回答方案来建模的。与现有的采用单步回答方案的回答方案相比,本文所指的预测得分(logit)同样可能被初始化和相继更正。
计算每种模态的贡献中使用到的 Soft Attention:
传统的Attention Mechanism就是Soft Attention,即通过确定性的得分计算来得到attended之后的编码隐状态。Soft Attention是参数化的(Parameterization),因此可导,可以被嵌入到模型中去,直接训练。梯度可以经过Attention Mechanism模块,反向传播到模型其他部分。 也有称作TOP-down Attention。
二、文章精读