多模态大模型（理解）入门看这一篇就好了（非常详细）从零基础入门到精通，收藏这篇就够了

最新推荐文章于 2025-10-08 18:10:15 发布

原创最新推荐文章于 2025-10-08 18:10:15 发布 · 839 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #机器学习

1. 前言：从NLU到MLLM，这不仅仅是概念升级

还记得当年在爱丁堡大学死磕NLU（自然语言理解）的时候，Keller教授给出的定义吗？输入是自然语言，输出是计算机能理解的结构化信息。现在，风水轮流转，轮到多模态大模型（MLLM）了。

简单粗暴地说，MLLM就是把NLU的输入升级成文本+图片等等，但输出还是结构化信息（通常是文本）。这就像给AI加了个“眼睛”，让它不仅仅能“听懂”人话，还能“看懂”世界。

当下最火的，莫过于多模态大模型 MLLM (Multimodal Large Language Model)：它是 Multimodality Understanding 与 LLM (Large Language Model) 的激情碰撞。

本文的目标？不是简单地复述论文，而是结合我多年的踩坑经验，用大白话把MLLM的那些弯弯绕绕给各位讲清楚。参考的这篇论文（A Survey on Multimodal Large Language Models）是基础，我的理解和吐槽才是灵魂。

2. 模型架构：三大组件，缺一不可？

MLLM的架构，说白了就是三个部分：

模态编码器 (Modality Encoder)：负责把图片、音频这些“非人话”转换成AI能理解的“embedding”。
预训练大语言模型 (Pre-trained LLM)：负责“理解”embedding，然后生成文本。
模态接口 (Modality Interface)：负责把不同模态的信息“融合”在一起，让LLM能同时“看”和“听”。

这三个组件，就像是人的眼睛、大脑和神经系统，少了哪个都不行。

2.1 模态编码器：不只是压缩，更是对齐

模态编码器，顾名思义，就是把原始数据压缩成latent embedding。视觉编码器这块，直接拿来主义就行，用那些pre-train好的。

这里必须点名表扬CLIP（Contrastive Language-Image Pre-Training）。它通过大规模的图像-文本对预训练，让视觉编码器在语义上与文本对齐。这种预对齐简直是神来之笔，让后续的LLM对齐工作事半功倍。

常用的视觉编码器详情

选择视觉编码器的时候，别光看参数量，分辨率、模型参数量和编码器的预训练数据集，一个都不能少。

记住，分辨率才是王道！

处理高分辨率图片，有两种主流策略：

双编码器融合：CogAgent就是个例子，用两个vision encoders分别处理高低分辨率图片，然后用cross-attention融合特征。
图片切片：把高分辨率图片切成小块，再用低分辨率编码器处理。这种方法可能需要positional embedding来标记每个小块的位置。

别纠结哪个更好，根据你的应用场景和计算资源来决定。

2.2 预训练大语言模型：参数量决定一切？Naive！

LLM，绝对是MLLM的核心。虽然现在都在卷千亿、万亿参数大模型，但参数量真能决定一切吗？Naive！

Scaling Law 固然重要，但训练策略更关键。参数量大了，训练不好，照样拉胯。所以，别盲目追求大，选择适合你应用场景的LLM才是正道。

2.3 模态接口：连接“眼睛”和“大脑”的桥梁

有了“眼睛”（模态编码器）和“大脑”（LLM），还得有个桥梁把它们连接起来。这个桥梁就是模态接口。

最常见的两种方法：

Learnable Connector：通过一个可学习的模块，把多模态信息融合成LLM能理解的形式。
Expert Model：让专家模型（比如image caption模型）把图片转换成文字，把多模态输入变成单模态输入。

2.3.1 Learnable Connector：两种融合方式，殊途同归？

Learnable Connector 的核心，就是把多模态信息融合成LLM能理解的信息。融合的粒度可以分为两种：token-level和feature-level。

Token-level Fusion：把modality encoder输出的特征转换成token representation，然后和text token representation拼接起来，作为LLM的输入。
- Q-former style (BLIP2)：用learnable queries来缩小image encoder和LLM之间的gap。
  
  Blip2: Q-former
  * MLP (LLaVA)：用MLP把视觉特征和文本特征对齐。
  * Feature-level Fusion：在LLM或visual transformer中插入额外的layer，实现文本特征和视觉特征的深度交互和融合。
- Flamingo：在LLM中插入cross-attention层，加强模态融合。

一句话总结：token-level fusion不改变LLM或ViT的内部结构，feature-level fusion则会修改LLM或ViT的内部结构。

2.3.2 Expert Model：偷懒的捷径？

Expert Model，说白了就是把多模态问题转换成单模态问题。比如，用image caption模型把图片转换成文字，然后直接用LLM处理文字。

这种方法简单粗暴，但效果往往不如端到端训练的MLLM。

3. 训练策略及数据：玄学炼丹，数据为王

3.1 Pretraining：打好基础，才能盖高楼

Pretraining阶段，主要目标是模态融合和提供基础的世界知识。

通常的做法是冻结LLM和visual encoder，只训练模态融合的interface。这样做是为了保证其他模块的预训练知识不流失。

当然，也有人选择更新pre-trained modules的参数，但前提是数据质量要过硬，否则容易出现幻觉。

3.1.2 Data：数据质量比数量更重要！

预训练数据可以分为粗粒度（coarse-grained）和细粒度（fine-grained）。

粗粒度数据：来源于网络，noise多，可以用CLIP模型过滤掉图文不匹配的数据。
细粒度数据：需要通过商用模型（比如chatgpt-4o）构建。

记住，数据宁缺毋滥！脏数据对MLLM的打击是毁灭性的。

3.2 Instruction-tuning：让AI听懂人话

Instruction-tuning的目的是让模型理解指令，输出符合指令的答案。通过指令调优，LLM有望提高zero-shot能力。

Pretrain-finetune：预训练后微调，微调通常需要大量的任务强相关数据。

Prompting：提示方法减少了对大规模数据的依赖，可以通过提示工程来完成专门的任务。

Instruction tuning 可以提升模型的泛化能力从而提升zero-shot能力。

3.2.1 Training Detail

Instruction tuning常见模式

instruction tuning将一条instruction，一组多模态数据作为输入，从而可以得到模型的predicted response（答案），与ground-truth response相比较，通过cross-entropy即可实现模型训练。

3.2.2 Data Collection：三种数据收集方法，各有千秋

Data Adaption：使用现有数据集构建指令形式的数据集。
Self-Instruction：让大语言模型生成一部分数据。
Data Mixture：数据混训（带图和不带图），只训练文本信息也可以给MLLM注入知识。

3.3 Alignment tuning：让AI更懂你

Alignment tuning 通过人类的反馈来训练模型，让模型更符合人类的偏好。

4. Evaluation：别光说不练，拉出来溜溜

在学校的时候，我总是跳过evaluation部分，直接看methodology。现在才知道，评测才是重中之重！

评测可以分为两类：

Closed-set：有固定答案，无需人工干预。
Open-set：答案灵活，需要人工打分。

5. Multimodal Hallucination：AI也会瞎说？

Multimodal hallucination，就是MLLM生成的答案和图片内容不符。

常见的幻觉问题：

Existence Hallucination：物体存在性识别错误。
Attribute Hallucination：物体属性识别错误。
Relationship Hallucination：物体之间的关联错误。

6. Brainstorming：一些不成熟的小建议

能力层级递进：训练MLLM，要循序渐进，先打好基础，再挑战高难度任务。
数据宁缺毋滥：数据质量比数量更重要！

*************************************2025最新版优快云大礼包：《AGI大模型学习资源包》免费分享***************************************

一、2025最新大模型学习路线

一个明确的学习路线可以帮助新人了解从哪里开始，按照什么顺序学习，以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

我们把学习路线分成L1到L4四个阶段，一步步带你从入门到进阶，从理论到实战。

L1级别:AI大模型时代的华丽登场

L1阶段：我们会去了解大模型的基础知识，以及大模型在各个行业的应用和分析；学习理解大模型的核心原理，关键技术，以及大模型应用场景；通过理论原理结合多个项目实战，从提示工程基础到提示工程进阶，掌握Prompt提示工程。

L2级别：AI大模型RAG应用开发工程

L2阶段是我们的AI大模型RAG应用开发工程，我们会去学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3级别：大模型Agent应用架构进阶实践

L3阶段：大模型Agent应用架构进阶实现，我们会去学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造我们自己的Agent智能体；同时还可以学习到包括Coze、Dify在内的可视化工具的使用。

L4级别：大模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，我们会更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调；并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

整个大模型学习路线L1主要是对大模型的理论基础、生态以及提示词他的一个学习掌握；而L3 L4更多的是通过项目实战来掌握大模型的应用开发，针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

二、大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

三、大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

四、大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

五、大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

*************************************2025最新版优快云大礼包：《AGI大模型学习资源包》免费分享*************************************