Intro:
- 打算研究一下多模态学习中的融合,看了几篇多模态学习的综述,对融合的介绍都停留在模型相关和模型无关的分类上,比如模型无关的早期融合 中期融合 和 晚期融合,很偏概念性质,很少对具体的融合算法和模块进行分类介绍。
- 所以,这篇blog记录 :搜集的与融合算法与模块相关的论文、帖子、文章、博客,持续更新…
- 对多模态学习总体介绍的博文:
多模态学习综述(MultiModal Learning) https://zhuanlan.zhihu.com/p/582878508
多模态学习综述及最新方向 https://zhuanlan.zhihu.com/p/389287751
多模态数据的表示、融合方法简述 https://zhuanlan.zhihu.com/p/422464629
1. 相关博文
-
多模态中各种Fusion骚操作 : 链接
三类: 简单操作、Attention-Based、双线性池化 -
多模态融合fusion的各种操作 : https://zhuanlan.zhihu.com/p/152234745
三类:基于简单操作的,基于注意力的,基于张量的方法
- 如果特征来自两个特征提取器,则被称为多模双线性池化(MBP,Multimodal Bilinear Pooling);如果特征来源于同一对象,则被称为同源双线性池化(HBP,Homogeneous Bilinear Pooling)或者二阶池化(Second-order Pooling)。
- 原始论文 《Bilinear CNN Models for Fine-grained Visual Recognition》
其核心 : 如使用VGG Conv5_3输出特征图大小为12x12x512,则特征图共有12x12个位置,每个位置的特征维度为1x512,则各位置特征向量外积结果相当于512x1与1x512的矩阵相乘,其各位置特征向量维度为512x512。文章中使用所有位置特征向量之和对其进行池化,故将144个512x512的特征向量相加,最终得到512*512的双线性特征。 该过程可以使用矩阵乘法实现,将特征图变形为144x512的特征矩阵,之后其转置与其相乘,得到512x512的双线性特征向量 - 链接中提到很多算法都是在上述论文基础上不断改进得到。
-
bilinear model && bilinear pooling(一) https://zhuanlan.zhihu.com/p/87650330
-
综述:一文详解50多种多模态图像融合方法 :https://zhuanlan.zhihu.com/p/558389374
相关论文
[1] ZHANG C, YANG Z, HE X, et al. Multimodal intelligence: Representation learning, information fusion, and applications [J]. IEEE Journal of Selected Topics in Signal Processing, 2020, 14(3): 478-93.
相关代码
未完待续