(九十一):Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answer

本文介绍了一种多模态分解双线性池化(MFB)方法,用于视觉问题回答(VQA)任务,融合多模态特征。MFB在VQA性能上优于现有双线性池方法,并结合共同注意学习,通过端到端深度网络共同学习图像和问题的注意,提高准确性。实验表明,MFB在VQA数据集上表现最佳。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 出处:ICCV 2017
  • 代码:
    https://github.com/vikrantmane7781/detectroon2/blob/main/vqa/models/mfb/mfb.py
    https://github.com/apugoneappu/ask_me_anything/tree/master/vqa/models/mfb
  • 题目:基于共同注意学习的多模态分解双线性池视觉答题方法
  • 主要内容:开发了一种多模态分解双线性池化(MFB)方法来融合VQA任务中的多模态特征。并设计了一个具有共同注意学习的网络架构

Abstract

视觉问题回答(VQA)具有挑战性,因为它需要同时理解图像的视觉内容和问题的文本内容。以细粒度的方式表示图像和问题的方法以及问题融合这些多模态特征的方法在性能中起着关键作用。基于双线性池的VQA模型已被证明优于传统的线性模型,但其高维表示和高计算复杂度可能严重限制其在实践中的适用性。在多模态特征融合方面,我们开发了一种多模态映像双线性(MFB)池化方法,可以有效地组合多模态特征,使得VQA的性能优于其他双模态池化方法。对于细粒度图像和问题的表示,我们开发了一种==“共同关注”机制==&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值