新手必看！多模态大模型 (MM-LLMs) 是什么？10 分钟学懂核心

最新推荐文章于 2025-10-08 18:10:15 发布

原创最新推荐文章于 2025-10-08 18:10:15 发布 · 1.1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #chatgpt #langchain #前端框架 #前端 #大模型 #LLM

1、什么是多模态？

多模态（Multimodality）指的是能够整合并处理两种及以上不同信息形态或数据类型的技术方法体系。在机器学习与人工智能领域，这类技术所覆盖的数据形式十分广泛，除了常见的文本、图像、视频、音频外，还包括传感器采集的各类信号（如温度、压力数据）、生物特征信息（如指纹、人脸）等。
在这里插入图片描述

多模态技术的核心价值在于，通过融合不同来源的信息，打破单一模态的局限——比如仅靠文本难以直观描述物体形态，仅靠图像难以传递抽象概念——从而提升任务处理的准确性、丰富交互体验，或让数据分析结果更全面。例如，在医疗诊断中，多模态系统可同时分析患者的CT影像（图像模态）、病历文本（文本模态）和生理指标（传感器数据），帮助医生做出更精准的判断。

2、多模态大语言模型为何仍是“语言模型”？

多模态大语言模型（Multimodal Large Language Models，简称MLLMs）是一类特殊的AI模型：它们以大语言模型（LLMs）的自然语言处理能力为基础，同时融入了对图像、音频等其他模态数据的理解与生成能力。简单来说，MLLMs既能“看懂”图片、“听懂”声音，又能像普通LLM一样“说”出或“写”出自然语言，还能基于这些信息生成新的内容（如图像、音频）。

这类模型的核心优势在于“跨模态协同”：比如看到一张小狗的图片，能生成“一只金毛犬在草地上奔跑”的描述；听到一段雨声，能输出“窗外的雨淅淅沥沥，打在玻璃上发出沙沙声”的文本；甚至能根据“一只坐着的黑猫”的文字描述，生成对应的图像。

从结构上看，MLLMs的核心仍是LLMs——其他模态的处理能力都是围绕LLMs扩展的。扩展的关键是找到一种方式，将图像、音频等非文本信息“翻译”成LLMs能理解的语义空间（类似将不同语言转换为同一种“中间语言”）。以下是MLLMs的核心组成部分：
在这里插入图片描述

模态编码器（Modality Encoder）：将不同模态的原始数据（如图像、音频）转换成模型可处理的特征；
输入投影器（Input Projector）：把不同模态的特征映射到LLMs能理解的共享语义空间；
大语言模型（LLMs）：负责核心的语义理解与逻辑推理，是整个系统的“大脑”；
输出投影器（Output Projector）：将LLMs的输出转换为其他模态生成器可识别的特征；
模态生成器（Modality Generator）：根据转换后的特征，生成图像、音频等输出。

可以说，LLMs是MLLMs的“中枢”，其他组件都是为了让LLMs能与非文本模态“沟通”而存在的。

3、模态编码器：不同模态的“翻译官”

模态编码器（Modality Encoder）是多模态模型的“前端处理器”，作用是将图像、音频、视频等不同模态的原始数据，转换成模型能进一步处理的“特征表示”（类似将“方言”翻译成“通用语”）。

不同模态的编码器设计各有侧重：

图像编码器：专注于提取图像的视觉特征（如颜色、形状、物体轮廓）。常用的模型包括ViT（Vision Transformer，将图像分割成小“补丁”后用Transformer处理）、CLIP ViT（结合文本语义训练，更擅长跨模态匹配）等。例如，ViT能将一张猫咪图片转换成一串数字，这些数字精准对应“猫的耳朵形状”“毛发颜色”等特征。
音频编码器：负责将声音信号（如语音、音乐、环境音）转换成特征。它们通常先将音频从时域（时间维度的波形）转换为频域（频率维度的频谱），再提取特征。主流模型有Whisper（擅长语音转文本，支持多语言）、CLAP（能将音频与文本语义对齐，比如识别“笑声”对应“开心”的文本描述）等。
视频编码器：最复杂的一类——既要处理每帧图像的视觉特征，又要捕捉帧与帧之间的时间关系（如物体运动轨迹）。例如ViViT（Video Vision Transformer）会先对每帧用图像编码器处理，再通过额外的Transformer层分析帧序列的时序特征，从而理解“一个人从走路到跑步”的动态过程。

模态编码器的性能直接影响后续处理的效果：如果编码器无法准确提取“小狗”的特征，后续模型可能会将其误判为“小猫”。

4、输入投影器：让不同模态“说同一种话”

输入投影器（Input Projector）是多模态模型中的“桥梁”，作用是将不同模态编码器输出的特征，映射到同一个共享语义空间中，让LLMs能统一处理。

为什么需要这一步？因为不同模态的特征“格式”可能完全不同：比如图像编码器输出的特征可能是1024维的向量，文本编码器（LLMs的一部分）输出的特征可能是768维的向量，直接让LLMs同时处理这两种向量，就像让一个人同时看懂中文和乱码——无法协同。

输入投影器通过特定的转换方法解决这个问题：常见的有线性变换（通过矩阵运算调整维度）、多层感知器（MLP，用神经网络学习非线性转换）、交叉注意力（让不同模态特征互相“参考”，增强语义关联）等。例如，图像特征经过输入投影器后，会被调整为与文本特征维度一致、语义对齐的向量，此时LLMs才能同时“理解”图像和文本的含义（比如结合“小狗”的图像特征和“可爱”的文本特征，得出“这是一只可爱的小狗”的结论）。
在这里插入图片描述

5、输出投影器：让LLMs的“想法”被其他模态理解

输出投影器（Output Projector）的作用与输入投影器相反：它将LLMs输出的语义特征，转换成其他模态生成器（如图像生成器、音频生成器）能“看懂”的格式。

LLMs的核心输出是文本语义（比如“生成一段欢快的钢琴曲”），但图像、音频生成器需要的是特定格式的特征（如图像生成需要“像素分布特征”，音频生成需要“频谱特征”）。输出投影器就像“翻译器”，将LLMs的“文本指令”转换成生成器能执行的“操作指南”。

例如，在生成“一只在月亮上跳跃的兔子”的图像时：LLMs先理解文本指令的语义，输出对应的特征；输出投影器再将这些特征转换为Stable Diffusion（图像生成器）能处理的“视觉特征向量”，最终让生成器“画”出符合描述的图像。
在这里插入图片描述

在NExT-GPT等模型中，输出投影器会针对不同模态设计专门的转换机制（如图像投影器、音频投影器），通过“指令跟随对齐”确保LLMs的意图能准确传递给生成器，实现跨模态生成的连贯性。

6、模态生成器：将“想法”变成具体内容

模态生成器（Modality Generator）是多模态模型的“创造者”，负责将输出投影器传递的特征，转换成具体的图像、音频、视频等内容。

不同模态的生成器采用的技术各不相同：

图像生成器：如Stable Diffusion，基于扩散模型工作——先从一张随机噪声图开始，逐步“去除噪声”，最终生成符合特征的清晰图像，支持根据文本生成高精度、风格多样的图片（如写实、动漫、油画风格）。
视频生成器：如Zeroscope，专注于动态内容生成。它不仅要生成每一帧的图像，还要保证帧与帧之间的连贯性（比如人物动作不卡顿、背景不变形），通常会结合时序模型（如Transformer）处理时间维度的信息。
音频生成器：如AudioLDM，能生成语音、音乐、环境音等。它通过学习音频的频谱特征，可根据文本生成“雨声+钢琴声”的混合音效，或模仿特定人的声音朗读文本。

模态生成器让MLLMs从“只能处理信息”升级为“能创造内容”，比如智能助手不仅能“听懂”用户说“唱一首生日快乐歌”，还能直接生成并播放这首歌，极大提升了交互的丰富性。
在这里插入图片描述

7、如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】