（七十九）：Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering

Laura_Wangzx

已于 2023-06-28 22:24:23 修改

阅读量147

点赞数

CC 4.0 BY-SA版权

分类专栏： “情感分析”研究方向论文-精读总结文章标签：计算机视觉人工智能深度学习

于 2022-03-27 09:11:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_37486501/article/details/122570366

“情感分析”研究方向论文-精读总结专栏收录该内容

87 篇文章 ¥19.90 ¥99.00

订阅专栏

论文提出了一种动态融合多模态特征的新框架，通过内模态和跨模态注意流，增强视觉问答（VQA）性能。动态内模态注意流模块（DyIntraMAF）利用其他模态信息动态调节注意权重，而跨模态注意流（InterMAF）则学习图像和语言间的交互。实验证明，这种融合方式能显著提高VQA任务的准确性。

（七十九）：Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering

Abstract
1. Introduction
2. Related Work
3. Dynamic Fusion with Intra- and Inter- modality Attention Flow for VQA
4. Experimental Setup
5. Conclusions

出处：CVPR 2019: 6639-6648
代码：
题目：基于内模态和跨模态注意流的视觉问答动态融合
主要内容：(1)提出了一种新的基于内模和跨模注意流(DFAF)的动态融合框架，通过交叉融合内模和跨模特征实现多模态融合。
(2)提出了动态模态内注意流(Dynamic intramaf)模块，用于在每个模态内生成有效的注意流，该注意流以其他模态的信息为动态条件。这是我们所提议的框架的核心创新之一。

Abstract

学习有效融合多模态特征是视觉问答的核心问题。

我们提出了一种动态融合多模态特征，通过内模态和跨模态信息流，它们交替地在视觉和语言模式之间传递动态信息。
该方法能够鲁棒捕获语言域与视觉域之间的高层交互，从而显著提高视觉回答的性能。
我们还证明了所提出的以其他模态为条件的动态模态内注意流可以动态调节目标模态的模态内注意，这对多模态特征融合至关重要。在VQA 2.0数据集上的实验评估表明，该方法达到了最先进的VQA性能。广泛的消融研究进行了全面的分析提出的方法。

1. Introduction

视觉问答[2]旨在自动回答与给定图像内容相关的自然语言问题。它在实践中有着广泛的应用，如辅助盲人助盲、幼儿教育等，因此成为近年来的研究热点。

了解本专栏

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Laura_Wangzx 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。