动机
-
视频传递着丰富的信息。因此,开发能够从视频中自动提取各种信息的模型就显得尤为重要。
最近几年,获取信息的方式发生了一种范式的转变,其中有很多与观看和收听通过互联网和新的高速网络大量分享的视频有关。视频传达了一种不同宽度的丰富信息,如人/物之间的动态时空关系,以及不同的多模态事件。因此,开发能够从视频中准确提取如此精确的多模态信息的自动化模型变得十分重要。
-
在视频上回答问题是可以评估这种AI能力的任务之一。视觉/视频问答对具有综合智能的智能体来说是一项重要的能力。
视频问答是一个具有代表性的人工智能任务,通过它作者可以评估AI智能体从给定的视频片段中理解、检索和返回所需信息的能力。回答视频上的问题需要既要理解时间信息,又要理解空间信息,所以它比单一的图像问答更具挑战性。
-
时间定位。
时间定位是视频上下文中事件/目标检测中一个被广泛研究的任务。已有工作仅处理视觉信息来检测目标/行动/活动。同时,在自然语言相关的时间定位任务的研究较少,最近的工作集中于通过自然语言在视频中某个时刻的检索。通过精心设计的门控和attention机制,作者的工作总的来说将大大有助于时间定位的任务(特别是在自然语言上下文和多模态数据的情况下)。
-
密集图像captioning。
图像captioning是联合理解视觉和语言信息的另一个方向。单一的句子captions在一个单一句子中捕捉对于描述一个图像的主要概念。然而,一个图像可以以不同方式包含重要/有用的多个方面。引入密集captions来密集和广泛地捕捉一张图像的不同方面和显著区域。特别是密集captions以目标层次来描述图像,给出目标的属性和动作等有用的显著区域信息。在本文中,作者利用这种密集caption的能力来帮助作者的视频问答模型以更好地理解一个图像来回答问题。
方法
简介
在本文中,作者提出了一个模型,该模型有效地整合了多模态信息,并从诸如视频+对话TVQA数据集(中的各种复杂视频片段中定位相关帧,其中包含需要视频和captions来回答的问题。当给定一个视频片段和一个基于该视频的自然语言问题时,首先将问题与视频帧和captions的内容(目标和关键字)进行比较,然后结合来自不同视频帧和captions的信息来回答问题。类似于这个过程,作者采用了两类attention的方法,即在词/目标级对齐问题和视频/captions,然后在帧级分别对对齐的视频和captions的特征进行二次对齐,以整合答案和问题的信息。在对齐的帧(现在包含融合的视频和字幕信息)中,只需要那些包含用于回答问题的相关信息。因此,将它们反馈给分类器之前,作者还对每个帧特征应用门控机制,以选择具有最多的信息量的帧。
接下来,为了使帧选择更加有效,作者将帧选择子任务铸造为多标签分类任务。为了将时间跨度注释转换为每个帧的标签,作者给起始点和结束点之间的帧分配一个正标签(‘1’),给其他帧分配一个负标签(‘0’),然后用二进制交叉熵损失对它们进行训练。此外,为了增强对人的重要性注释的监督,作者还引入了一个新的损失函数–帧内帧外帧分数边际(IOFSM),它是帧内(在时间跨度内)和帧外(在时间跨度外)之间的平均分数之差。实验表明,当这两种损失一起使用时,它们是互补的。此外,作者还引入了一种将二进制交叉熵应用于非平衡数据集的方法。由于作者将每一帧视为一个训练示例(正面或负面),作者有比正面示例更多有意义的负面示例。为了平衡偏好,作者通过平均每个标签的损失来计算归一化分数。作者称之为平衡二进制交叉熵(BBCE),它有助于调整不平衡,并进一步提高作者模型的性能。
最后,作者还使用密集captions来帮助进一步改进作者的视频问答模型的时间定位。通过为原始任务提供以描述性文本形式的额外的、补充的信息,captions已被证明对视觉语言任务有帮助。作者使用密集captions作为作者模型的额外输入,因为密集captions在目标级的