多模态（multi-modal）、多视图（multi-view）、多媒体（Multimedia）的区别

Final 布鸽

已于 2024-12-05 10:44:32 修改

阅读量846

点赞数 3

文章标签：机器学习

于 2024-08-19 17:20:41 首次发布

本文链接：https://blog.youkuaiyun.com/qq_43811051/article/details/141330269

版权

这三个概念的主要区别在于侧重点不同。
多媒体(multimedia)强调的是媒体：所谓的媒体就是指承载和传输某种信息或物质的载体。可分为五大类：感觉媒体、表示媒体、表现媒体、存储媒体和传输媒体。
多模态(multi-modal)强调的是模态：这个概念最近火起来是因为gpt和sora，一个语言大模型一个视频大模型。在计算机领域，模态这个词被解释成不同融合来自不同感官的数据和信息，图片、文字、视频。模态可以理解为人接受信息的特定方式。具体可参考：多模态学习综述
多视图(multi-view)强调的是视图：这里的视图是事物的某一个表现方面,是多个视角下采集获取的数据，是对同一事物不同角度的描述。最普通的理解如初中学过的一个物体从不同方位看得到的三视图这种概念。

多视图数据来源
来源于不同形态的数据，如不同风格的字体、不同国家的语言
来源于不同数据站点的数据，如不同设备扫描得到的数据、不同种群的数据
来源于不同视角的数据，如一个人不同角度的成像数据
来源于不同特征描述的数据，如数据的边缘、傅里叶、纹理等特征构成的数据
来源于不同模态的数据，如视频可划分为音频、视觉、文本等不同模态构成的数据
来源于不同格式的数据，如不同的图像格式所构成的数据
来源于不同采样下的数据，如数据缺失程度不同所构成的数据、

但其实视图的概念更加的抽象，在多视图中，不同的模态，视频、文字、语音，可以被认为是不同的视图，不同媒体中获取的信息也可以被认为是不同视图，关键在于只要你满足是对同一个物体的描述，都能算多视图。

不同的文献中模态一词的含义不同"狭义的多模态是指人的不同感官,如视觉,听觉,嗅觉，触觉等;视觉所对应的图像或文字信息,和听觉所对应的声音信息,就构成多模态数据;广义的模态数据是指对于一个事物,通过不同的方法收集到的数据"例如在人脸识别中,可能收集到人脸的2D图像和3D形状模型,这就构成人脸数据的两个模态;在指纹识别中,用不同传感器采集的一个指纹的多种不同印痕,构成指纹数据的多个模态;对比多模态数据和多视图数据的概念可以看出,多视图的含义里包含了多模态,多视图可以表示更广泛的实际问题
参考： 多视图学习笔记

多视图可以包含多模态，多视图更理论，多模态更实际，多媒体更物质