(七十九):Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering
- 出处:CVPR 2019: 6639-6648
- 代码:
- 题目:基于内模态和跨模态注意流的视觉问答动态融合
- 主要内容:(1)提出了一种新的基于内模和跨模注意流(DFAF)的动态融合框架,通过交叉融合内模和跨模特征实现多模态融合。
(2)提出了动态模态内注意流(Dynamic intramaf)模块,用于在每个模态内生成有效的注意流,该注意流以其他模态的信息为动态条件。这是我们所提议的框架的核心创新之一。
Abstract
学习有效融合多模态特征是视觉问答的核心问题。
- 我们提出了一种动态融合多模态特征,通过内模态和跨模态信息流,它们交替地在视觉和语言模式之间传递动态信息。
- 该方法能够鲁棒捕获语言域与视觉域之间的高层交互,从而显著提高视觉回答的性能。
- 我们还证明了所提出的以其他模态为条件的动态模态内注意流可以动态调节目标模态的模态内注意,这对多模态特征融合至关重要。在VQA 2.0数据集上的实验评估表明,该方法达到了最先进的VQA性能。广泛的消融研究进行了全面的分析提出的方法。
1. Introduction
视觉问答[2]旨在自动回答与给定图像内容相关的自然语言问题。它在实践中有着广泛的应用,如辅助盲人助盲、幼儿教育等,因此成为