
CVPR 2020
文章平均质量分 90
smile909
这个作者很懒,什么都没留下…
展开
-
CVPR 2020 Character Matters: Video Story Understanding with Character-Aware Relations
动机与短视频和GIF不同,视频故事包含清晰的情节和主要人物列表。如果没有识别出人物和角色名字之间的联系,一个模型就无法获得对情节的真正理解。视频故事问答(VSQA)提供了一种有效的评估模型更高层次理解能力的方法。然而,目前的VSQA方法只是从场景中提取一般的视觉特征。通过这种方法,它们仍然倾向于只学习表面上的相关性。视频问答的任务在最近的许多研究中得到了探索。然而,这些方法仅仅是利用预训练好的CNN从视频帧或视频帧的一部分中提取视觉特征,而忽略了视频场景内部的角色特征,使得其模型缺乏对场景的深度原创 2021-05-10 23:10:20 · 406 阅读 · 0 评论 -
CVPR 2020 Modality Shifting Attention Network for Multi-modal Video Question Answering
动机VQA具有挑战性,因为它需要同时使用图像和文本执行细粒度推理的能力。视频问答(VideoQA)和多模态视频问答(MVQA)都是这种需要推理的任务。与VQA或VideoQA相比,MVQA是一项更具挑战性的任务,因为它(1)需要确定与QA相关的时间时刻,(2)还需要对视频和字幕模态进行推理。MVQA的第一个挑战是在所有有助于回答问题的异构模态中定位关键时刻。然而,以往的时间attention往往过于模糊或不准确地关注视频和字幕的重要区域,从而在推理过程中引入噪声。除了定性地评估预测到的at原创 2021-05-09 22:31:58 · 508 阅读 · 0 评论 -
CVPR 2020 ActBERT: Learning Global-Local Video-Text Representations
动机目前已有许多视频和语言任务来评估模型在视频-文本联合表征学习中的能力,视频数据是学习跨模态表征的自然来源。文本描述由现成的自动语音识别(ASR)模型自动生成。这对于模型在实际应用程序中的部署更具有可缩放性和通用性。在本文中,作者致力于以一种自监督的方式学习联合视频-文本表示。尽管监督学习在各种计算机视觉任务中取得了成功,但近年来,基于无标记数据的自监督表征学习引起了越来越多的关注。在自监督学习中,一个模型首先在一个代理损失的大量未标记数据上进行预训练。微调过程进一步帮助预训练好的模型在下游任务中得原创 2021-05-06 21:10:55 · 983 阅读 · 1 评论 -
UniVL: A Unifified Video and Language Pre-Training Model for Multimodal Understanding and Generation
动机随着近年来自然语言处理和图像语言任务的预训练技术的成功,一些视频语言预训练工作逐渐被开发出来,以改进视频文本相关的下游任务。多模态视频语言任务的研究和应用都具有重要的意义。近年来,针对多模态任务提出了许多视觉语言预训练模型。以往的模型大多只对模型进行理解任务上的预训练,这导致了生成任务的预训练与finetune不一致。与这些作品不同的是,作者专注于针对视频和文本预训练做统一表示。作者通过一个编码器-解码器范例,对理解任务和生成任务进行了预训练。虽然并发工作VideoAsMT具有与作者类似的编原创 2021-05-06 20:54:37 · 1575 阅读 · 1 评论 -
CVPR 2020 Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions
动机在过去几年里,人工智能已经向类人推理方向取得了重大进展。这是通过模拟受限任务中的人类智能片段而实现的,在这些任务中,机器的性能很容易评估。在这些任务中,视频故事问答作为一个测试床出现,以近似真实世界的情况,其中不仅物体之间的空间关系是重要的,而且过去、现在和未来事件之间的时间一致性。为了理解电影,人们不断地对特定场景中的情节和动作进行推理,并将它们与已经看过的全部故事情节联系起来。受此启发,视频故事问答也需要利用视频故事的结构,不仅要考虑当前场景中发生的事情,而且要考虑在先前场景中获得的知识。之原创 2021-05-06 20:45:42 · 368 阅读 · 0 评论