大模型学习必备：一文读懂多模态与文本模型的本质区别（建议收藏）

原创于 2025-11-28 13:54:14 发布 · 193 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大模型学习 #AI大模型 #大模型教程 #大模型入门 #多模态大模型 #LLM

前言

随着模型的不断迭代，大模型的能力越来越强，处理范围也越来越丰富。

Nano-Banana、Sora 等模型在音视频理解、生成的能力令人咋舌。

那么多模态到底比文本大模型多了什么？
为什么加了图像、音频、视频后，模型就更“聪明”了？
它的架构、训练方式和文本 LLM 有什么本质差异？

一、什么是多模态大模型？

文本大模型（LLM）只处理文字序列。
多模态大模型（MLLM）能同时处理 图像、文本、音频、视频、传感器信息 等多种输入。

更简单的理解：

文本 LLM 是“语言专家”。
多模态 LLM 是“世界理解专家”。

因为真正的现实世界不是文本，而是视觉、声音、动作。

二、核心区别：

输入形式不同：只能读“句子” vs 能读“世界”

• 文本 LLM

输入永远是 token 序列（词、子词、字符）。

• 多模态 LLM

输入是 多种编码后的向量序列，例如：

模态	原始输入	转换方式（编码器）
图像	像素矩阵	Vision Encoder（ViT, CLIP, SigLIP…）
视频	帧序列	时空编码器（TimeSformer 等）
音频	波形 / 频谱图	音频编码器（Whisper-style）
文本	token	文本 tokenizer

多模态 LLM 必须让所有“非文本信息”最终变成向量，再与语言模型对齐。

模型结构不同：单塔 vs 双塔 / 多塔结构

• 文本模型结构

几乎都是 Transformer 单体架构。

• 多模态模型结构

基本都包含：

✔️（1）独立的视觉编码器 Vision Encoder

作用：把图像转换成视觉 embedding

• ViT
• CLIP
• SigLIP
• Qwen2-VL 使用的 Resampler + Vision Tower
• LLaVA 使用预训练 CLIP

✔️（2）特征对齐层（Projector / Q-Former）

这是 多模态最关键的部分，文本模型里没有。

为什么需要？

因为视觉 embedding 维度、分布、粒度都和文本 embedding 完全不一样，需要「翻译」成语言模型能理解的格式。

典型方式：

• 线性投影（LLaVA 1.0）
• 多层 MLP
• Q-Former（BLIP2）
• MoE Projector（最新大模型趋势）

✔️（3）语言模型 LLM

最终仍由 LLM 输出文本。

也就是说：

多模态 LLM = Vision Encoder + Projector + LLM
文本 LLM = 只有 LLM

训练方式不同：LLM 从头训练，多模态必须“分阶段”

文本大模型只需要两个阶段：

1. 预训练：学习语言
2. 微调：对齐任务

但多模态 LLM 至少需要 三阶段：

推理方式不同：文本是“token-by-token”，多模态还需“预处理与融合”

文本推理：

读取 token → Transformer 计算 → 输出下一个 token

多模态推理：

1. Vision Encoder 先跑一次（开销大）
1. 图像 embedding 输入语言模型
1. LLM 才开始生成文本

进一步造成几个特点：

📌 多模态延迟比文本更大

因为 Vision Encoder（通常是 ViT-L/ViT-H）计算量巨大。

📌 内存更大

Vision embedding 往往是：

• 数百个 patch
• 每个 patch 1024～4096 维

远大于一个文本 token 的向量。

📌 工程优化更难

因此出现大量“视觉 KV-Cache”“视觉 token 压缩”等技术。

能力边界不同：文本 LLM = 语言；多模态 = 现实世界

文本 LLM 的能力范围：

• 语言理解
• 基于文本的知识
• 推理（数学、逻辑）
• 代码
• 问答
• 写作
• 对话

多模态 LLM 的能力范围扩展为：

✔️ 视觉理解
✔️ 空间关系推理
✔️ 场景识别
✔️ OCR + 图表理解
✔️ 文档理解
✔️ 视频/动作理解
✔️ 多模态工具使用（视觉 RAG、视觉 Agent）

最典型例子：

文本 LLM 能描述“如何修水龙头”，
但多模态 LLM 能“看着你家的水龙头告诉你怎么修”。

三、以VLLM实际举例对比

典型结构：


Image
Vision Encoder
Projector Alignment
LLM Decoder
Text
Tokenizer Embedding
Output

对比对象是一个“正常的纯文本 LLM”（比如 GPT / Qwen / LLaMA 类）。

下面所有对比都以“图像+文本”的 VLLM（ViT+LLM） vs 纯文本 LLM为主线。

1. 输入层对比：

文本 LLM：只有 tokenizer

• 输入：字符串
• 处理：tokenizer → token_id 序列
• 再查 embedding_matrix[token_id] → 得到 text_embedding，直接送入 Transformer。

VLLM（ViT + LLM）：多了一条视觉编码支路

图像路径：

1. 输入图像：H × W × 3 像素
1. ViT 做的事情：

• 把图像切成 patch，比如 16×16 的小块
• 每个 patch 展平成向量，再乘线性层 → d_model 维
• 加上 2D 位置编码（patch 在图像中的位置）
• 多层 Transformer Encoder 处理，得到一串视觉 tokens：```plaintext
[v_1, v_2, …, v_N] # N 通常是多个 patch 数量，比如 196, 256, 576…

1. Projector / 对齐层：

• 把 [v_i] 从 “ViT 的空间” 投影到 “LLM 的 embedding 空间”
• 可能是：

• 简单线性层
• 多层 MLP
• Q-Former（再套一层小 Transformer）

• 得到最终要送进 LLM 的视觉 tokens：```plaintext
[V_1, V_2, …, V_M] # M 可以等于 N，也可以被池化/压缩后更少

文本路径：

• 和纯文本 LLM 一样：tokenizer → embedding → T_1, ..., T_L

最后的输入序列：

[<BOS>, V_1, V_2, ..., V_M, <SEP>, T_1, T_2, ..., T_L]

👉 关键差异 1：

文本 LLM 的输入全是 “词向量”；
VLLM 的输入是一串“视觉 patch 向量 + 文本 token 向量的混合序列”。

2. 模型结构对比：

文本 LLM：单塔 Transformer 解码器

典型结构：


Embedding
N Decoder Blocks
LM Head
Next Token Distribution

每个 block =

• Self-Attention
• FFN
• 残差 + Norm

VLLM（ViT + LLM）：至少是 “双塔 + 对齐”

从整体上看：


图像塔 ViT 编码器
对齐层 Projector 或 QFormer
语言塔 LLM 解码器
文本
Tokenizer

区别点：

1. 多了一个 Vision Encoder 塔

• ViT 通常是纯 Encoder
• LLM 是 Decoder-only
• 两者参数量、结构、训练数据完全不同

1. 中间多了一层 “模态对齐”

• 文本 LLM 不需要对齐，只要 embedding table 一致
• VLLM 必须解决：

“图像特征空间” 和 “语言 embedding 空间” 如何对齐到可以一起 Self-Attention

1. LLM 内部结构本身可以与纯文本保持一致

• 多数开源多模态模型就是“拿现有 LLaMA/Qwen 当语言底座，前面接 ViT+projector”
• 这也是为什么：

• 你可以 “给任意 LLM 接一个视觉头，变成 VLLM”；
• 也可以只替换底座 LLM，视觉侧不动，迅速升级多模态能力。

👉 关键差异 2：

文本 LLM 是“一条链路”；
VLLM 是“图像塔 + 对齐模块 + 语言塔”的组合系统。

3. 训练流程对比：

文本 LLM：两阶段（预训练 + 指令微调）

1. 语言预训练：大规模文本，自回归预测下一个 token
1. SFT / DPO / RLHF 等对齐训练：

• 指令数据
• 对话数据
• 偏好/奖励模型

VLLM（ViT + LLM）：至少三阶段（甚至 4 阶段）

以典型“ViT + LLaMA”类 VLLM 为例：

阶段 1：单独训练 Vision Encoder（ViT）

• 数据：图像分类、图文对比（CLIP 风格）等
• 目标：让 ViT 真正能提取语义相关的视觉特征
• 输出：一个“会看图”的视觉 backbone

阶段 2：模态对齐（Projector / Q-Former 训练）

目标是：

让 ViT(图) 的输出，能和 LLM 的 token 序列混在一起，仍然讲得通。

常见训练方式：

• 图文匹配/对比（ITC/ITM）
• “看图写一句话”（Image Caption）
• 对齐损失（MSE / Cosine / CLIP 对比损失）

在这一步，ViT 通常会 frozen，主要训练 projector / 对齐层，以防破坏已经学好的视觉特征。

阶段 3：多模态指令微调（Multimodal SFT）

数据形态大致是：

<image>, <文本指令> → <答案（多模态指令数据）>

如：

• 看图问答
• 文档 + 提问
• 图表 + 提问
• “圈选框 + 说明某个区域内的内容”
• OCR + 推理
• “看一张报告，给出结论”

在这阶段：

• LLM 权重、投影层都参与训练
• 有时 Vision Encoder 也会 partial unfreeze 做微调

（可选）阶段 4：对齐 & RL 类过程

• 多模态版本的 DPO / RLHF
• 人类偏好：

• 不要幻觉
• 不要编图像不存在的信息
• 更关注图中关键区域

👉 关键差异 3：

文本 LLM 是“单模态一条链路的训练”；
VLLM 则是“视觉预训练 → 模态对齐 → 多模态 SFT →（可选）对齐”的多阶段训练，
中间每一步都可能出错、都要单独调。

4. 推理阶段对比：延迟 & 内存 & 工程复杂度

文本 LLM 推理：


输入 tokens
一次性编码
token-by-token 解码
输出

优化集中在：

• KV-Cache
• FlashAttention
• 量化
• 推理引擎（vLLM / SGLang）

VLLM（ViT + LLM）推理：


图像
ViT 前向
图像 embedding
projector
视觉 tokens
文本
tokenizer
文本 tokens
序列拼接
LLM 解码
输出

多了几个消耗点：

1. ViT 前向开销 —— 一张图可能就相当于几百个 token 的计算量
1. 视觉 tokens 很长 —— 比如 224×224 分成 16×16 patch，有 196 个 patch，每个 patch 一个 token
1. 在 LLM 的 Self-Attention 里，视觉 tokens 和文本 tokens 都要计算注意力
1. 工程上还要考虑：

• 视觉 KV-cache
• 视觉 token 压缩（只保留关键信息）
• 多图/视频长序列时的分段处理

👉 关键差异 4：

纯文本 LLM 的推理只考虑“语言 token”；
VLLM 要同时处理“图像+文本 token”，前向路径更长、内存压力更大、优化难度更高。

四、总结

如果说，文本大模型是只看书不看世界的语言专家
那么以 ViT + LLM 为代表的多模态大模型，就是眼睛 + 大脑一体化的世界理解引擎

在架构上，它多了一整条视觉编码支路（ViT），并通过模态对齐模块，把图像特征翻译成语言世界能理解的“视觉 token”；
在训练上，它不仅要学会说话，还要学会“看图”和“图文对齐”，训练流程从两阶段升级成多阶段；
在推理上，它需要同时处理图像和文本，带来更高的计算开销，也推动了视觉 token 压缩、视觉 KV-Cache 等新一轮工程创新。

文本 LLM 解决的是“读书人的问题”，
多模态 LLM 则开始真正走向“现实世界的问题”。

普通人如何抓住AI大模型的风口？

为什么要学AI大模型

当下，⼈⼯智能市场迎来了爆发期，并逐渐进⼊以⼈⼯通⽤智能（AGI）为主导的新时代。企业纷纷官宣“ AI+ ”战略，为新兴技术⼈才创造丰富的就业机会，⼈才缺⼝将达 400 万！

DeepSeek问世以来，生成式AI和大模型技术爆发式增长，让很多岗位重新成了炙手可热的新星，岗位薪资远超很多后端岗位，在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合，飞速发展，成为炙手可热的新风口，企业非常需要了解AI、懂AI、会用AI的员工，纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述

AI大模型开发工程师对AI大模型需要了解到什么程度呢？我们先看一下招聘需求：

在这里插入图片描述

知道人家要什么能力，一切就好办了！我整理了AI大模型开发工程师需要掌握的知识如下：

大模型基础知识

你得知道市面上的大模型产品生态和产品线；还要了解Llama、Qwen等开源大模型与OpenAI等闭源模型的能力差异；以及了解开源模型的二次开发优势，以及闭源模型的商业化限制，等等。

了解这些技术的目的在于建立与算法工程师的共通语言，确保能够沟通项目需求，同时具备管理AI项目进展、合理分配项目资源、把握和控制项目成本的能力。

产品经理还需要有业务sense，这其实就又回到了产品人的看家本领上。我们知道先阶段AI的局限性还非常大，模型生成的内容不理想甚至错误的情况屡见不鲜。因此AI产品经理看技术，更多的是从技术边界、成本等角度出发，选择合适的技术方案来实现需求，甚至用业务来补足技术的短板。

AI Agent

现阶段，AI Agent的发展可谓是百花齐放，甚至有人说，Agent就是未来应用该有的样子，所以这个LLM的重要分支，必须要掌握。

Agent，中文名为“智能体”，由控制端（Brain）、感知端（Perception）和行动端（Action）组成，是一种能够在特定环境中自主行动、感知环境、做出决策并与其他Agent或人类进行交互的计算机程序或实体。简单来说就是给大模型这个大脑装上“记忆”、装上“手”和“脚”，让它自动完成工作。

Agent的核心特性

自主性： 能够独立做出决策，不依赖人类的直接控制。

适应性： 能够根据环境的变化调整其行为。

交互性： 能够与人类或其他系统进行有效沟通和交互。

对于大模型开发工程师来说，学习Agent更多的是理解它的设计理念和工作方式。零代码的大模型应用开发平台也有很多，比如dify、coze，拿来做一个小项目，你就会发现，其实并不难。

AI 应用项目开发流程

如果产品形态和开发模式都和过去不一样了，那还画啥原型？怎么排项目周期？这将深刻影响产品经理这个岗位本身的价值构成，所以每个AI产品经理都必须要了解它。

看着都是新词，其实接触起来，也不难。

从0到1的大模型系统学习籽料

最近很多程序员朋友都已经学习或者准备学习 AI 大模型，后台也经常会有小伙伴咨询学习路线和学习资料，我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师（吴文俊奖得主）
在这里插入图片描述

给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料，这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。
在这里插入图片描述

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入，精准学习显得尤为重要。一份系统的技术路线图，不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点，还能提供一条高效、有序的学习路径。

基础篇，包括了大模型的基本情况，核心原理，带你认识了解大模型提示词，Transformer架构，预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门AI大模型
进阶篇，你将掌握RAG，Langchain、Agent的核心原理和应用，学习如何微调大模型，让大模型更适合自己的行业需求，私有化部署大模型，让自己的数据更加安全
项目实战篇，会手把手一步步带着大家练习企业级落地项目，比如电商行业的智能客服、智能销售项目，教育行业的智慧校园、智能辅导项目等等