
ACL 2020
文章平均质量分 90
smile909
这个作者很懒,什么都没留下…
展开
-
ACL 2020 MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning
动机本文目标是生成一个段落(多个句子),条件是输入具有几个预定义的事件片段的视频。为视频生成多句子描述是最具挑战性的任务之一,因为它不仅要求视频的视觉相关性,而且要求段落中句子之间基于语篇的连贯性。最近,Transformer已被证明比RNN更有效,在许多顺序建模任务中展示了卓越的性能。之前将transformer模型引入视频段落captioning任务的方法,Transformer操作在分离的固定长度的段上,没有跨段的任何信息流。Transformer架构仍然不能很好地建模历史信息。因此,为了生成更原创 2021-05-17 21:05:15 · 796 阅读 · 0 评论 -
ACL 2020 Video-Grounded Dialogues with Pretrained Generation Language Models
动机预训练好的语言模型在改善各种下游NLP任务方面已显示出显著的成功,这是由于它们能够在文本数据中建立依赖关系和生成自然反应。本文利用预训练好的语言模型来提高视频对话的效果。基于Transformer的预训练好的语言模型的神经结构已经被用来学习视觉-文本NLP任务的跨模态表征。它可以应用于捕捉不同类型输入模式(文本和图像)之间的各种依赖关系,并具有适当的客观损失函数。这些模型的多头attention机制可以检测输入文本中的每个token与输入图像中的每个图像块或空间对象之间的长程依赖关系。作者的动机是原创 2021-05-14 22:47:21 · 329 阅读 · 0 评论 -
ACL 2020 TVQA+: Spatio-Temporal Grounding for Video Question Answering
动机基于图像的QA成功的一个关键是空间attention,而attention技术很难概括到视频的时间性。基于图像的视觉问答(QA)任务近年来取得了长足的进展。这一成功的一个关键是空间attention,其中神经模型学会关注相关区域以预测正确答案。与基于图像的QA相比,基于视频的QA任务在性能上的进步较小。一个可能的原因是attention技术很难概括到视频的时间性。而且,由于标注的成本很高,大多数现有的视频QA数据集只包含QA对,而没有为回答问题提供所需的关键剪辑或区域标签。受先前关于基于图像和视原创 2021-04-28 00:19:33 · 1105 阅读 · 0 评论