多模态希望解决什么问题
什么是模态?
根据美国哈佛商学院有关研究人员的分析资料表明,人的大脑每天通过五种感官在接受外部信息的比例分别为:味觉1%、触觉1.5%、嗅觉3.5%、听觉11%以及视觉83%。
人类通过多种感觉器官接触世界——我们看到物体,听到声音,感受纹理,闻到气味等等。一般而言,模态指的是某事发生或被体验的方式。大多数人将模态与感官模态联系在一起,这些模态代表了我们的主要交流和感知渠道,如视觉或触觉。因此,当一个研究问题或数据集包含多个这样的模态时,可以将其描述为多模态的。一般主要关注三种模态:自然语言(既可以是书面的也可以是口头的);视觉信号(通常用图像或视频表示);以及声音信号(编码声音和类声音信息,如韵律和语音表达)。
多模态算法为什么比较难?
多模态机器学习(Multimodal Machine Learning)研究包含不同模态数据的机器学习问题。由于不同模态往往来自不同的传感器,数据的形成方式和内部结构有很大的区别,例如,图像是自然界存在的连续空间,而文本是依赖人类知识、语法规则组织的离散空间。多模态数据的异质性(heterogeneity)对如何学习多模态间关联性和互补性提出挑战。
为了使人工智能算法在理解我们周围的世界方面取得进展,它需要能够解释和推理多模态信息。多模态机器学习旨在构建能够处理和关联多个模态信息的模型。从早期对音频-视觉语音识别的研究到最近对语言和视觉模型的兴趣激增,多模态机器学习是一个充满活力的跨学科领域,具有日益重要和非凡潜力。
多模态场景的主要应用
从历史演进角度看
表1 多模态主要应用领域及核心技术挑战

应用1: 语音识别和合成
多模态早期应用之一视听语音识别(audio-visual speech recognition-AVSR )。这类研究受到了McGurk Effect的影响。视觉与声音会相互影响,这个心理学发现启发了研究者去探索如何使用视觉辅助声音识别。
McGurk效应是一种视听错觉现象,最早由研究人员Harry McGurk和John MacDonald在1976年描述。这个效应涉及到一个人同时看着一个人的嘴唇在说一个音节,同时听到另一个音节的声音。结果是观察者会产生一个第三个音节的错觉,该音节既不是实际看到的,也不是实际听到的。
例如,当一个人看到一个人的嘴唇在说"ga"(/ga/)的同时,听到的声音是"ba"(/ba/)时,观察者可能会产生一个错误的听觉体验,感觉到了"da"(/da/)。
应用2: 多模态内容的索引和检索
随着多媒体技术发展,多媒体内容索引和检索的需要变得越来越重要。而早期,对这些多媒体视频进行索引和搜索的方法是基于关键词的,但在尝试直接搜索视觉和多模态内容时,出现了新的研究问题。这导致了多媒体内容分析领域的新研究课题,如自动镜头边界检测和视频摘要。这些研究项目得到了美国国家标准与技术研究所(NIST)的TrecVid计划的支持,该计划推出了许多高质量的数据集,包括从2011年开始的多媒体事件检测(MED)任务。
TrecVid计划是由美国国家标准与技术研究所(NIST)发起的一个国际性研究评估活动,旨在推动视频信息检索技术的发展。TrecVid代表“Text REtrieval Conference Video”, 即“文本检索会议视频”。该计划提供了一个平台,让研究人员和实验室可以参与多媒体信息检索、视频分析和相关领域的评估任务。
TrecVid计划每年都会发布一系列任务,要求参与者开展相关的研究工作,例如视频内容分类、目标检测、事件检测等。参与者需要提交他们的算法和系统,并通过一系列评估指标来评估性能。

应用3: 社交活动中的多模态行为理解-事件检测和情感识别
通过自动面部检测、面部关键点检测和面部表情识别等技术的强大进展,完成情感识别和情感计算任务。AVEC挑战随后每年举办一次,后期的实例包括自动评估抑郁症和焦虑症等医疗应用。D’Mello等人发表了一篇关于多模态情感识别最近进展的优秀综述[2]。
数据集:
- • 在这个领域收集的第一个重要数据集之一是AMI会议语料库,其中包含了100多小时的会议视频录音,全部进行了全面的转录和注释。
- • 另一个重要的数据集是SEMAINE语料库,它允许研究发言者和听众之间的人际动态关系。该数据集成为了2011年举办的第一个音频-视觉情感挑战(AVEC)的基础。
应用4: 多媒体内容生成
语言和视觉为重点的新型多模态应用类别:多媒体内容描述。其中一个最具代表性的应用是图像描述,其任务是生成输入图像的文本描述。这受到了这类系统能够帮助视障人士在日常任务中的能力的启发。媒体描述面临的主要挑战之一是评估:如何评估所预测描述的质量。最近提出了视觉问答(VQA)任务来解决一些评估挑战[3],其目标是回答关于图像的具体问题。
从模态视角进行分类

跨模态定位和关系识别任务
- • Visual Grounding:给定一个图像与一段文本,定位到文本所描述的物体。
- • Temporal Language Localization: 给定一个视频与一段文本,定位到文本所描述的动作(预测起止时间)。
- • Video Summarization from Text Query:给定一段话(query)与一个视频,根据这段话的内容进行视频摘要,预测视频关键帧(或关键片段)组合为一个短的摘要视频。
- • Video Segmentation from Natural Language Query: 给定一段话(query)与一个视频,分割得到query所指示的物体。
- • Video-Language Inference: 给定视频(包括视频的一些字幕信息),还有一段文本假设(hypothesis),判断二者是否存在语义蕴含(二分类),即判断视频内容是否包含这段文本的语义。
- • Object Tracking from Natural Language Query: 给定一段视频和一些文本,追踪视频中文本所描述的对象。
- • Language-guided Image/Video Editing: 一句话自动修图。给定一段指令(文本),自动进行图像/视频的编辑。
跨模态生成任务
- • Language-Audio
- • Text-to-Speech Synthesis: 给定文本,生成一段对应的声音。
- • Audio Captioning:给定一段语音,生成一句话总结并描述主要内容。(不是语音识别)
- • Vision-Audio
- • Audio-Visual Speech Recognition(视听语音识别):给定某人的视频及语音进行语音识别。
- • Video Sound Separation(视频声源分离):给定视频和声音信号(包含多个声源),进行声源定位与分离。
- • Image Generation from Audio: 给定声音,生成与其相关的图像。
- • Speech-conditioned Face generation:给定一段话,生成说话人的视频。
- • Audio-Driven 3D Facial Animation:给定一段话与3D人脸模版,生成说话的人脸3D动画。
- • Vision-Language
- • Image/Video-Text Retrieval (图(视频)文检索): 图像/视频<–>文本的相互检索。
- • Image/Video Captioning(图像/视频描述):给定一个图像/视频,生成文本描述其主要内容。
- • Visual Question Answering(视觉问答):给定一个图像/视频与一个问题,预测答案。
- • Image/Video Generation from Text:给定文本,生成相应的图像或视频。
- • Multimodal Machine Translation:给定一种语言的文本与该文本对应的图像,翻译为另外一种语言。
- • Vision-and-Language Navigation(视觉-语言导航):给定自然语言进行指导,使得智能体根据视觉传感器导航到特定的目标。
- • Multimodal Dialog(多模态对话):给定图像,历史对话,以及与图像相关的问题,预测该问题的回答。
多模态主要技术难点
表征
如何挖掘模态间的互补性或独立性以表征多模态数据。
表征学习是多模态任务的基础,其中包含了一些开放性问题,例如:如何结合来源不同的异质数据,如何处理不同模态的不同噪声等级,测试样本的某种模态缺失怎么办。
原理介绍
现有多模态表征学习可分为两类:Joint(联合,也称为单塔结构)和Coordinated(协作,双塔结构)。
- • Joint结构注重捕捉多模态的互补性,融合多个输入模态 x1, x2 ,获得多模态表征 xm= f( x1 , x2 ) ,进而使用 xm 完成某种预测任务。网络优化目标是某种预测任务的性能。
- • Coordinated结构并不寻求融合而是建模多种模态数据间的相关性,它将多个(通常是两个)模态映射到协作空间,表示为:f( x1 )~g( x2 ) ,其中~表示一种协作关系。网络的优化目标是这种协作关系(通常是相似性,即最小化cosine距离等度量)。

图1. Joint representation(单塔)与Coordinated representation(双塔)
在测试阶段,由于Coordinated结构保留了两个模态的表示空间,它适合仅有一个模态作为输入的应用,如跨模态检索,翻译,grounding和zero-shot learning。但是Joint结构学习到的 x_m 只适用于多模态作为输入,例如视听语音识别,VQA,情感识别等。
讨论
相较于多模态,基于单模态的表征学习已被广泛且深入地研究。在Transformer出现之前,不同模态所适用的最佳表征学习模型不同,例如,CNN广泛适用CV领域,LSTM占领NLP领域。较多的多模态工作仍旧局限在使用N个异质网络单独提取N个模态的特征,之后采用Joint或Coordinated结构进行训练。不过这种思路在很快改变,随着越来越多工作证实Transformer在CV和NLP以及Speech领域都可以获得极佳的性能,仅使用Transformer统一多个模态、甚至多个跨模态任务成为可能。基于Transformer的多模态预训练模型在2019年后喷涌而出,如LXMERT[5], Oscar[6], UNITER[7]属于Joint结构,CLIP[8], BriVL[9] 属于Coordinated结构。
相关算法及参考文献

注:上述表格中的参考文献为本参考文献[1]的附属参考文献编号
翻译
原理介绍
跨模态翻译的目的是学习如何将源模态映射(map)到目标模态。例如:输入一张图像,我们希望生成一句话描述它,或者输入一句话,我们生成与之匹配的一张图。主流方法分为两类:
- • 举例法(example-based)。模版法的特征是借助于词典(dictionary)进行翻译,词典一般指训练集中的数据对 {( x1 , y1),…, ( xN , yN )} 。给定测试样本 x^ ,模版法直接检索在词典中找到最匹配的翻译结果 yi ,并将其作为最终输出。此处的检索可分为单模态检索或跨模态检索。单模态检索首先找到与 x^ 最相似的 xi ,然后获得 xi 对应的 yi 。而多模态检索直接在 { y1 ,…, yN } 集合中检索到与 x^ 最相似的 yi,性能通常优于单模态检索。为进一步增强检索结果的准确性,可选择top-K的检索结果 {yi1 ,…, yik ,再融合K个结果作为最终输出。
- • 生成式模型(generative)。抛弃词典,直接生成目标模态的数据。分为三个子类别:
- • 基于语法模版,即人为设定多个针对目标模态的语法模版,将模型的预测结果插入模版中作为翻译结果。以图像描述为例,模版定义为 who did what to whom in a place ,其中有四个待替换的插槽。通过不同类型的目标/属性/场景检测器可以获得who, what, whom, place等具体单词,进而完成翻译。
- • 编码-解码器(encoder-decoder)。首先将源模态的数据编码为隐特征 z ,后续被解码器用于生成目标模态。以图像描述为例,编码器(一般为CNN+spatial pooling)将图像编码为一个或多个特征向量,进而输入到RNN中以自回归的方式生成单词序列。
- • 连续性生成(continuous generation)。它针对源模态与目标模态都为流数据且在时间上严格对齐的任务。以文本合成语音为例,它与图像描述不同,语音数据与文本数据在时间上严格对齐。WaveNet采用了CNN并行预测+CTC loss解决该类问题。当然,编码-解码器理论上也可完成该任务,但需处理数据对齐问题。

图2 用于跨模态翻译的举例法(左)与生成式模式(右)
多类方法优缺点分析举例法面临两个问题:
- • 一是需要维护一个大词典,且每次翻译都需要进行全局检索,使得模型巨大且推理速度慢(hashing可缓解此问题)。
- • 二是此类方法较机械,仅仅是复制(或简单修改)训练集的数据,无法生成准确且新奇的翻译结果。
生成式方法可以生成更为灵活、相关性更强、性能更优的翻译结果。其中,基于语法模版的方式受限于模版的多样性,生成的语句多样性有限,且不是端到端训练。现今,编码-解码器与连续性生成是主流方案,它们一般基于深度网络且端到端训练。
跨模态翻译的评估困境
评估语音识别模型的性能是容易的,因为正确的输出有且只有一种。但对于大多数翻译任务来说(视觉<–>文本、文本–>语音等),模态间的映射是一对多的,输出存在多个正确结果。例如图像描述,不同的人会使用不同的语句对同一幅图像进行描述,因此模型的评估常常是主观的。人工评价是最理想的评估,但是耗时耗钱,且需要多样化打分人群的背景以避免偏见。自动化指标是视觉描述领域常用的替代方法,包括BLEU,Meteor,CIDEr,ROUGE等,但它们被证实与人的评价相关性较弱。基于检索的评估和弱化任务(例如:将图像描述中一对多映射简化为VQA中一对一的映射)也是解决评估困境的手段。
相关算法及参考文献

注:上述表格中的参考文献为本参考文献[1]的附属参考文献编号
对齐
跨模态对齐目的是挖掘多模态数据的子元素之间的关联性,例如visual grounding任务。在学习表征或翻译时也可能隐式地学习对齐。
原理介绍
对齐广泛应用于多模态任务中,具体的应用方式包括显式对齐和隐式对齐。
- • 显式对齐。如果一个模型的优化目标是最大化多模态数据的子元素的对齐程度,则称为显示对齐。包括无监督和有监督方法。无监督对齐:给定两个模态的数据作为输入,希望模型实现子元素的对齐,但是训练数据没有“对齐结果”的标注,模型需要同时学习相似度度量和对齐方式。而有监督方法存在标注,可训练模型学习相似度度量。Visual grounding便是有监督对齐的任务。
- • 隐式对齐。如果模型的最终优化目标不是对齐任务,对齐过程仅仅是某个中间(或隐式)步骤,则称为隐式对齐。早期基于概率图模型(如HMM)的方法被应用于文本翻译和音素识别中,通过对齐源语言和目的语言的单词或声音信号与音素。但是他们都需要手动构建模态间的映射。最受欢迎的方式是基于注意力机制的对齐,我们对两种模态的子元素间求取注意力权重矩阵,可视为隐式地衡量跨模态子元素间的关联程度。在图像描述,这种注意力被用来判断生成某个单词时需要关注图像中的哪些区域。在视觉问答中,注意力权重被用来定位问题所指的图像区域。很多基于深度学习的跨模态任务都可以找到跨模态注意力的影子。
讨论
对齐可以作为一个单独的任务,也可以作为其他任务的隐式特征增强手段。多模态对齐可挖掘子元素间的细粒度交互,同时有可解释性,被广泛应用。
但多模态对齐面临如下挑战:
- • 仅有少量数据集包含显式的对齐标注;
- • 跨模态度量难以设计;
- • 可能存在多种对齐,可能存在某些元素无法在其他模态中找到。
相关算法及参考文献

注:上述表格中的参考文献为本参考文献[1]的附属参考文献编号
融合
融合两个模态的数据,用来进行某种预测。例如:Visual Question Answering需融合图像和问题来预测答案;Audio-visual speech recognition需融合声音和视频信息用以识别说话内容。若测试场景下的输入数据包含多个模态,那么必须面对多模态特征融合。
原理介绍
多模态融合策略,主要分为两类:模型无关和基于模型的融合
- • 模型无关的融合策略
- • 前融合:指在模型的浅层(或输入层)将多个模态的特征拼接起来。
- • 后融合:独立训练多个模型,在预测层(最后一层)进行融合。
- • 混合融合:同时结合前融合和后融合,以及在模型中间层进行特征交互。
- • 基于模型的融合策略:
- • 多核学习(Multiple Kernel Learning)是SVM的扩展。SVM通过核函数将输入特征映射到高维空间,使线性不可分问题在高维空间可分。在处理多个输入时,多核处理多个模态特征,使得每个模态都找到其最佳核函数;
- • 基于概率图模型利用隐马尔可夫模型或贝叶斯网络建模数据的联合概率分布(生成式)或条件概率(判别式)。基于神经网络的融合。使用LSTM、卷积层、注意力层、门机制、双线性融合等设计序列数据或图像数据的复杂交互。
讨论
多模态融合是依赖于任务和数据的,现有工作中常常是多种融合手段的堆积,并未真正统一的理论支撑。最近,神经网络已成为处理多模态融合的一种非常流行的方式,然而图形模型和多核学习仍然被使用,特别是在训练数据有限或模型可解释性很重要的任务中。
当然,多模态融合仍存在的挑战:
- • 不同模态的序列信息可能没有对齐;
- • 信号间的关联可能只是补充(仅提高鲁棒性而无法增大信息量)而不是互补;
- • 不同数据可能存在不同程度的噪声。
相关算法及参考文献

注:上述表格中的参考文献为本参考文献[1]的附属参考文献编号
协同学习(co-learning)
模态间的知识迁移。使用辅助模态训练的网络可以帮助该模态的学习,尤其是该模态数据量较小的情况下。
原理介绍
之所以称为"协同学习",是因为,辅助模态仅在模型训练期间使用,而在测试时不使用。
我们根据它们的训练资源,将协同学习方法分为三类:并行、非并行和混合。

图3 协同学习中数据并行类型
- • 并行学习
并行数据方法需要训练数据集,其中来自一个模态的观察直接与来自其他模态的观察相关联。换句话说,当多模态观察来自相同的实例时,比如在一个音视频语音数据集中,视频和语音样本来自同一说话者。
- • 非并行协同学习
非并行数据方法不需要不同模态观察之间的直接链接。这些方法通常通过在类别方面的重叠来实现协同学习。例如,在零样本学习中,常规的视觉对象识别数据集可以通过扩展为包括来自维基百科的第二个纯文本数据集,以提高视觉对象识别的泛化性能。
- • 混合协同方法
在混合数据设置中,通过共享模态或数据集来连接模态。
讨论
多模态协同学习允许一种模态影响另一种模态的训练,利用跨模态的互补信息。值得注意的是,协同学习是与任务无关的,可以用于创建更好的融合、翻译和对齐模型。这一挑战可以通过诸如协同训练、多模态表示学习、概念接地和零样本学习(ZSL)等算法来解决,并已在视觉分类、动作识别、视听语音识别和语义相似度估计等领域得到广泛应用。
相关算法及参考文献

注:上述表格中的参考文献为本参考文献[1]的附属参考文献编号
最后
为什么要学AI大模型
当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!
DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。

最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
AI大模型系统学习路线
在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。
AI大模型入门到实战的视频教程+项目包
看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

海量AI大模型必读的经典书籍(PDF)
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

600+AI大模型报告(实时更新)
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

AI大模型面试真题+答案解析
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下


这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
2016

被折叠的 条评论
为什么被折叠?



