Multimodal Dual Attention Memory for Video Story Question Answering阅读笔记

本文介绍了MDAM模型,一种用于视频故事问答的多模态双注意记忆架构,旨在通过双重注意机制捕获视频内容的潜在变量。MDAM在预处理、自注意、问题注意、多模态融合和答案选择等步骤中处理帧和字幕信息,通过ECCV2018的实验验证了其在PororoQA和MovieQA数据集上的优越性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文提出了一种视频故事问答(QA)体系结构MDAM,关键的思想是使用双重注意机制与后期融合。MDAM首先使用self - attention来学习场景帧和字幕中的潜在概念。然后根据给出的问题,使用第二层注意这些潜在的概念。发表于ECCV2018,分别在PororoQA和MovieQA数据集上对MDAM进行了评估。
文章链接:Multimodal Dual Attention Memory for Video Story Question Answering

一、文章引入
基于多模态内容输入的视频故事问答是人工智能领域的一个新兴课题。近年来,多模态深度学习研究已经成功地提高了静止图像和视频的QA性能,以及字幕、脚本、剧情梗概等辅助内容。但由于以下两个原因,视频故事QA比图像QA更具挑战性。
首先,视频故事QA涉及到按时间序列排列的多模式内容。模型必须学习至少两个多模态内容和给定问题之间的联合表示,并且这些联合表示必须考虑时间序列上的动态模式。其次,视频故事QA需要从多模态内容中提取高层含义,即根据故事的一致性,对场景帧和字幕进行分割。然而,视频中的场景帧和字幕对于任务来说是冗余的、高度复杂的,有时甚至是模糊的信息,而人类可以在抽象层面上根据对视频故事情节的理解进行推理和推断。这意味着人类可以成功地提取出与多模态内容相关的潜在变量,并在推理和推理过程中加以利用。这些潜在的变量取决于给定的问题,以给出正确的答案。然而,之前关于视频故事QA的工作集中在对原始场景框架和字幕的理解上,并没有对潜在变量进行建模。

本文提出了一种新的视频故事QA任务模型——多模态双注意记忆(MDAM),该模型使用ResNet、GloVe、PE和casing feature来表示视频的场景帧和字幕。然后,利用多头注意力网络计算场景帧和字幕的潜在变量。对于给定的问题,MDAM关注潜在变量的子集,将场景帧和字幕信息压缩到每个单独的表示。然后,利用image QA中使用的多模态残差学习,在整个QA过程中只进行一次多模态融合。这个学习框架由五个子模块组成:预处理、自注意、问题注意、多模态融合和答案选择,这是端到端的监督学习。下图给出了抽象层次上的模型。
在这里插入图片描述
二、主要框架
本文的目标是构建一个视频QA模型,该模型通过注意力机制最大化QA所需的信息,并将多模态信息融合到较高的抽象水平。 作者通过引入两个注意层来解决这个问题,这两个注意层利用了多头注意,然后是多模态融合的残差学习。
下图展示了本文提出的用于视频故事质量保证的多模态双注意记忆(MDAM)模型的总体结构。MDAM由五个模块组成:(1)第一个模块是预处理模块。所有的输入包括给定视频的帧和字幕都被转换成张量格式。(2)在self-attention模块中,MDAM学习根据整个视频内容获取预处理帧和字幕的潜在变量。这个过程模拟了一个人观看视频的全部内容,然后通过使用episodic buffer(情景缓冲器)回忆画面和字幕来理解这个故事。(3)在attention by question模块中,MDAM学习给出注意分数,找到给定问题的相关潜在变量。它可以被视为一个认知过程,即根据所理解的故事找到包含答案信息的点。(4)在多模态融合模块中,利用残差函数将这些精细的帧和字幕以及问题进行融合。(5)最

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值