什么是多模态机器学习？

最新推荐文章于 2025-10-08 18:10:15 发布

原创

最新推荐文章于 2025-10-08 18:10:15 发布 · 10w+ 阅读

295

1.1k ·

CC 4.0 BY-SA版权

文章标签：

#MMML #计算机视觉

首先，什么叫做模态（Modality）呢？

每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

同时，模态也可以有非常广泛的定义，比如我们可以把两种不同的语言当做是两种模态，甚至在两种不同情况下采集到的数据集，亦可认为是两种模态。

因此，多模态机器学习，英文全称 MultiModal Machine Learning (MMML)，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

多模态学习从1970年代起步，经历了几个发展阶段，在2010后全面步入Deep Learning阶段。

人其实是一个多模态学习的总和，所以也有”砖家“说了，多模态学习才是真正的人工智能发展方向。

本文将针对多模态学习在深度学习发面的研究方向和应用做相关介绍，主要参考了来自ACL 2017的《Tutorial on Multimodal Machine Learning》。

多模态学习的分类

多模态学习可以划分为以下五个研究方向：

多模态表示学习 Multimodal Representation
模态转化 Translation
对齐 Alignment
多模态融合 Multimodal Fusion
协同学习 Co-learning

下面将针对这五大研究方向，逐一进行介绍。

多模态表示学习 Multimodal Representation

单模态的表示学习负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量，而多模态表示学习是指通过利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示。主要包括两大研究方向：联合表示（Joint Representations）和协同表示（Coordinated Representations）。

联合表示将多个模态的信息一起映射到一个统一的多模态向量空间；
协同表示负责将多模态中的每个模态分别映射到各自的表示空间，但映射后的向量之间满足一定的相关性约束（例如线性相关）。

最低0.47元/天解锁文章

10 条评论

weixin_42001089 2021.11.21
最新多模态综述:https://mp.weixin.qq.com/s/r95blN2q9OAr7wUfJBxTNQ

想做一只快乐的修狗 2021.07.23
真的真的真的太感谢了！！！困惑了几天的问题，看了这篇文章解决了！！！谢谢谢谢！！

mukes 2021.07.22
针不戳呀，写的针不戳！

weixin_44557998 2020.08.17
《Tutorial on Multimodal Machine Learning》这些课程有网络视频资源吗？

有野心的wo牛 2019.07.11
你好，我现在要做的是多模态知识图谱构建相关的研究，可以给一些意见吗？

小叶Sama 2019.03.18
您好，我想问一下，运动图像和骨骼对齐的是哪一篇文章啊？

cfc523 2019.02.07
您好，请教下，多模态学习和多视角学习是个什么关系呢？过去提到协同训练都认为是多视角学习方法的一种，看了您的文章，感觉两者出现了一些交集，但似乎又有不同。
- Neal_caffrey0725回复cfc523 2021.03.24
  不严格区分，这两个意思是一样的。多模态说的是一个对象不同模态的数据，比如文字，语音，图片都能表达“下雪”这个对象。多视角就是一个对象不同的看法，比如两个相机不同方位拍出来的同一个对象的图片。。。一般是不太对两个概念进行区分的，可以看成是一个概念。
- 勤奋努力_回复cfc523 2019.10.16
  [reply]cfc523[/reply] 你好，我最近准备看一下多视角学习，可以帮忙给一点建议吗