(九十一):Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering
- 出处:ICCV 2017
- 代码:
https://github.com/vikrantmane7781/detectroon2/blob/main/vqa/models/mfb/mfb.py
https://github.com/apugoneappu/ask_me_anything/tree/master/vqa/models/mfb - 题目:基于共同注意学习的多模态分解双线性池视觉答题方法
- 主要内容:开发了一种多模态分解双线性池化(MFB)方法来融合VQA任务中的多模态特征。并设计了一个具有共同注意学习的网络架构,
Abstract
视觉问题回答(VQA)具有挑战性,因为它需要同时理解图像的视觉内容和问题的文本内容。以细粒度的方式表示图像和问题的方法以及问题和融合这些多模态特征的方法在性能中起着关键作用。基于双线性池的VQA模型已被证明优于传统的线性模型,但其高维表示和高计算复杂度可能严重限制其在实践中的适用性。在多模态特征融合方面,我们开发了一种多模态映像双线性(MFB)池化方法,可以有效地组合多模态特征,使得VQA的性能优于其他双模态池化方法。对于细粒度图像和问题的表示,我们开发了一种==“共同关注”机制==&#x