ACL 2020 MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning

最新推荐文章于 2024-09-25 07:42:10 发布

smile909

最新推荐文章于 2024-09-25 07:42:10 发布

阅读量810

点赞数 1

分类专栏： ACL 2020

本文链接：https://blog.youkuaiyun.com/smile909/article/details/116949057

版权

MART模型通过记忆模块增强了Transformer，以解决视频段落captioning任务中句子间连贯性的问题。与传统Transformer相比，MART能更好地捕捉历史信息，生成更连贯、少冗余的描述。实验表明，MART在多个数据集上表现出优于基于LSTM和Transformer的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

动机

本文目标是生成一个段落（多个句子），条件是输入具有几个预定义的事件片段的视频。为视频生成多句子描述是最具挑战性的任务之一，因为它不仅要求视频的视觉相关性，而且要求段落中句子之间基于语篇的连贯性。
最近，Transformer已被证明比RNN更有效，在许多顺序建模任务中展示了卓越的性能。之前将transformer模型引入视频段落captioning任务的方法，Transformer操作在分离的固定长度的段上，没有跨段的任何信息流。Transformer架构仍然不能很好地建模历史信息。因此，为了生成更加连贯的视频段落，必须建立一个能够跨越多个视频片段并捕获更长范围依赖关系的模型。

方法

简介

作者提出了记忆增强递归Transformer模型（MART模型），这是一个基于Transformer的模型，它使用一个共享的编码器-解码器结构，加上一个外部记忆模型，以实现对视频片段和句子的先前历史的建模。与vanilla transformer视频段落captioning模型相比，作者的第一个架构变化是统一的编码器-解码器设计，即MART中的编码器和解码器使用共享的transformer层，而不是独立的Transformer层。这种统一的编码器-解码器设计灵感来自最近的transformer语言模型，以防止过拟合和减少内存使用。此外，记忆模块作为记忆更新器工作，该记忆更新器使用当前输入和先前的记忆状态来更新其记忆状态。记忆状态可以被解释为高度概括的视频段和caption历史信息的容器。在编码阶段，使用交叉注意力从上一步骤的记忆状态来增强当前视频片段表示。因此，当生成一个新的文本时，MART能够意识到先前的上下文信息，并且能够生成具有更高连贯性和更低重复性的段落captions。

Transformer-XL是最近提出的一种transformer语言模型，它也使用了递归，并且能够解决用于语言建模的上下文片段问题（即每个语言片段都被单独建模而不知道其周围的上下文，从而导致无效的优化和较低的性能。）。与MART使用高度概括的存储器（它在传递有用的语义或未来句子的语言线索时比Transformer-XL更有效。）来记住他的历史信息不同，Transformer-XL直接使用以前片段中的隐藏状态。作者为了视频段落captioning任务，修改了Transformer-XL框架，并将其作为一个额外的比较呈现出来。作者基于两个标准数据集对MART进行基准测试：ActivityNet Captions和YouCookII。自动评估和人工评估都表明，对比以前的基于LSTM的方法和基于Transformer的方法，MART生成了更令人满意的结果。特别是，MART可以生成更连贯的段落（例如，共指和顺序），更少的冗余段落，而不损失段落的准确性（视觉相关性）。