VQA中多模态fusion方式小结

最新推荐文章于 2025-05-23 10:37:00 发布

原创

最新推荐文章于 2025-05-23 10:37:00 发布 · 3.7k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#VQA #多模态 #模态融合

本文总结了多模态特征融合方法在视觉问答（VQA）任务中的应用，包括线性池化、双线性池化如Multi-modal Compact Bilinear (MCB)、Multi-modal Low-rank Bilinear (MLB)、Multi-modal Factorized Bilinear (MFB)以及MUTAN。线性池化简单但无法捕捉复杂关联，双线性池化引入高效计算策略但仍存在挑战。MFB通过矩阵分解改进了MLB，而MUTAN利用Tucker分解优化融合过程。这些方法展示了多模态理解的进步。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多模态特征融合的线性池化：连接或者元素相加（concatenation or element-wise. addition）来融合图像的视觉特征和问题的文本特征
这种方式不能有效的捕捉图像的视觉特征和问题的文本特征之间的复杂关联。

接着出现了双线性池化：最早由 Separating Style and Content提出，但是高维的输出特征和大量的模型参数限制了可用性。
双线性池化的形式：
在这里插入图片描述
1、Multi-modal Compact Bilinear (MCB) pooling使用 Tensor Sketch algorithm有效地减少参数数量和计算时间，但是MCB依赖一个高维输出(16000-D)特征来保证性能，内存使用过大。

2、Multi-modal Low-rank Bilinear (MLB)基于两个特征向量的Hadamard product。优点：输出低维特征，参数少。缺点：对于超参数敏感，收敛速度慢。
在这里插入图片描述
3、Multi-modal Factorized Bilinear pooling (MFB)
Inspired by the matrix factorization(矩阵分解)

MLB与MFB的区别：

最低0.47元/天解锁文章

200万优质内容无限畅学

机器学习了解一下

博客等级

码龄8年

32
原创

33
点赞

146
收藏

18
粉丝

关注

私信

热门文章

分类专栏

python机器学习 2篇
Linux 3篇
lintcode 1篇
小程序 1篇
数据库 5篇
计算机视觉 2篇
Windows 1篇
界面 1篇
Tensorflow 2篇
Python 3篇
Pytorch 5篇
多模态 1篇
计算机相关 2篇

展开全部收起

上一篇：: Pytorch常用函数总结

下一篇：: .yml记录

最新评论

ODBC配置及代码
别说了我很菜: 语句句柄不能复用吗？
小程序+服务器避坑
傻妹妹你坐船头哟: 解决了大麻烦，感谢
PyQt小结
测试小怪兽: 觉得总结的很好，这些都很实用。给楼主一个赞，希望能再出一点关于事件触发，信号和槽之类的总结。
Pytorch模型训练相关函数记录
机器学习了解一下回复 iamzxxing: 直接传值就好了，一般设为5
Python小记录
weixin_41878407: 您好，我想请问下面的代码中： [code=python] def normal_weight(nin,nout=None,scale=0.05,ortho=True): if nout == None: nout = nin if nout == nin and ortho: W = ortho_weight(nin) else: W = np.random.randn(nin, nout) * scale return W.astype(config.floatX) [/code] 出现： W = np.random.randn(nin, nout) * scale File "mtrand.pyx", line 1425, in mtrand.RandomState.randn File "mtrand.pyx", line 1555, in mtrand.RandomState.standard_normal File "mtrand.pyx", line 167, in mtrand.cont0_array TypeError: 'NoneType' object cannot be interpreted as an index 应该怎么解决？

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。