
AAAI 2020
文章平均质量分 90
smile909
这个作者很懒,什么都没留下…
展开
-
AAAI 2020 Segment-Then-Rank: Non-Factoid Question Answering on Instructional Videos
动机视频问答(QA)的数据集通常假设答案是一个基于简洁事实的简短文本。然而,对视频内容的非事实性QA研究相对较少。视频问答(QA)是NLP和计算机视觉领域的重要问题之一。最近,随着TVQA、TGIF-QA和MovieQA等各种数据集的创建,基于视频的QA技术得到了快速发展。然而,这些数据集通常假设答案是一个基于简洁事实的简短文本(例如,问题“鸟的颜色是什么?”可以用“白色”来回答),而用户可能希望对诸如“how”和“what“的问题提供更长的非事实性答案。然而,对视频内容的非事实性QA研究相对较少。原创 2021-04-25 00:10:06 · 224 阅读 · 0 评论 -
AAAI 2020 Reasoning with Heterogeneous Graph Alignment for Video Question Answering∗
动机视频问答(VideoQA)的推理通常涉及两个领域的异构数据,即时空视频内容和语言文字序列。现有的方法主要集中在多模态的表示和融合方面,在对齐和推理方面的研究还很少。近年来,多模态问答技术取得了显著进展,其中最具代表性的是视觉问答(VQA)和视频问答(VideoQA),其中VideoQA将VQA扩展到视频领域,对时空理解和推理提出了更高的要求。视频问答(VideoQA)旨在自动推理视频和文本问题的正确答案,近年来受到越来越多的关注。VideoQA的推理通常涉及两个领域的异构数据,即时空视频内容和语原创 2021-04-24 00:38:40 · 761 阅读 · 0 评论 -
AAAI 2020 Location-aware Graph Convolutional Networks for Video Question Answering
动机视频问答(Video QA)是计算机视觉领域的一个新兴课题,由于其在人工问答系统、机器人对话、视频检索等方面的广泛应用,近年来受到越来越多的关注。与深入研究的图像问答(Image QA)任务不同,图像问答任务侧重于理解静态图像,而视频问答更加实用,因为输入的视觉信息经常动态变化。与图像问答相比,视频问答更具有挑战性。(1)视频中的视觉内容更为复杂,因为它可能包含数千帧,如图1所示。更重要的是,一些框架可能被强大的背景内容所支配,而这些背景内容与问题无关。(2)视频中经常包含多种动作,但原创 2021-04-23 00:07:19 · 570 阅读 · 0 评论 -
Divide and Conquer:Question-Guided Spatio-Temporal Contextual Attention for Video Question Answering
动机理解问题和寻找答案的线索是视频问答的关键。VQA任务主要分为图像问答(Image QA)和视频问答(Video QA)两种,针对不同视觉材料的自然语言问题进行回答。通常,理解问题并在给定的视觉材料中找到问题答案的线索是VQA的关键。对于图像问答,在过去十年中,已经集中了大量的努力,专注于寻找融合视觉特征和语言特征的更好方法,帮助网络准确理解问题和视觉特征。注意力机制被用于告知神经网络“答案的线索在哪里”。视频问答需要同时在空间和时间两个维度上准确地判断问题的线索,因此与图像问答相比具有更强原创 2021-04-21 23:49:57 · 413 阅读 · 0 评论