多模态学习中的融合方法 总结

Intro:

  • 打算研究一下多模态学习中的融合,看了几篇多模态学习的综述,对融合的介绍都停留在模型相关和模型无关的分类上,比如模型无关的早期融合 中期融合 和 晚期融合,很偏概念性质,很少对具体的融合算法和模块进行分类介绍。
  • 所以,这篇blog记录 :搜集的与融合算法与模块相关的论文、帖子、文章、博客,持续更新…
  • 对多模态学习总体介绍的博文:
    多模态学习综述(MultiModal Learning) https://zhuanlan.zhihu.com/p/582878508
    多模态学习综述及最新方向 https://zhuanlan.zhihu.com/p/389287751
    多模态数据的表示、融合方法简述 https://zhuanlan.zhihu.com/p/422464629

1. 相关博文

  1. 多模态中各种Fusion骚操作 : 链接
    三类: 简单操作、Attention-Based、双线性池化

  2. 多模态融合fusion的各种操作 : https://zhuanlan.zhihu.com/p/152234745
    三类:基于简单操作的,基于注意力的,基于张量的方法

  3. 双线性池化 : https://zhuanlan.zhihu.com/p/62532887

  • 如果特征来自两个特征提取器,则被称为多模双线性池化(MBP,Multimodal Bilinear Pooling);如果特征来源于同一对象,则被称为同源双线性池化(HBP,Homogeneous Bilinear Pooling)或者二阶池化(Second-order Pooling)。
  • 原始论文 《Bilinear CNN Models for Fine-grained Visual Recognition》
    其核心 : 如使用VGG Conv5_3输出特征图大小为12x12x512,则特征图共有12x12个位置,每个位置的特征维度为1x512,则各位置特征向量外积结果相当于512x1与1x512的矩阵相乘,其各位置特征向量维度为512x512。文章中使用所有位置特征向量之和对其进行池化,故将144个512x512的特征向量相加,最终得到512*512的双线性特征。 该过程可以使用矩阵乘法实现,将特征图变形为144x512的特征矩阵,之后其转置与其相乘,得到512x512的双线性特征向量
  • 链接中提到很多算法都是在上述论文基础上不断改进得到。
  1. bilinear model && bilinear pooling(一) https://zhuanlan.zhihu.com/p/87650330

  2. 综述:一文详解50多种多模态图像融合方法 :https://zhuanlan.zhihu.com/p/558389374

相关论文

[1] ZHANG C, YANG Z, HE X, et al. Multimodal intelligence: Representation learning, information fusion, and applications [J]. IEEE Journal of Selected Topics in Signal Processing, 2020, 14(3): 478-93.

相关代码


未完待续

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ray Song

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值