大模型学习（Datawhale_Happy-LLM）笔记4: 预训练语言模型-优快云博客

本文链接：https://blog.youkuaiyun.com/lxltom/article/details/148814822

本章按 Encoder-Only、Encoder-Decoder、Decoder-Only 的顺序来依次介绍 Transformer 时代的各个主流预训练模型，分别介绍三种核⼼的模型架构、每种主流模型选择的预训练任务及其独特优势，这也是目前所有主流 LLM 的模型基础。

代表：BERT及其优化版本

结构：只用Transformer的Encoder部分，擅长分析文本语义（像“阅读理解专家” NLU）。
训练方法：
- MLM（掩码语言模型）：随机遮住句子中的词，让模型猜，比如“我__苹果”→猜“吃”。
- NSP（下一句预测）：判断两个句子是否连续，比如“今天天气好”和“我去散步”是否相关。
优化版本：
- RoBERTa：用更多数据（160GB）、更大batch训练，去掉NSP任务，效果更好。
- ALBERT：压缩参数（如共享层权重），用更难的SOP任务（判断句子顺序是否颠倒），性价比更高。
应用：适合文本分类、情感分析等“理解类”任务，比如判断新闻属于“体育”还是“科技”。

代表：T5

代表：GPT系列、LLaMA

结构：只用Transformer的Decoder，擅长“续写”内容（像“文章接龙达人”）。
训练方法：CLM（因果语言模型），根据上文预测下一个词，比如“今天天气晴朗，适合__”→猜“去公园”。
进化路径：
- GPT-1到GPT-3：参数从1.17亿涨到1750亿，通过“少量示例+提示”就能完成任务（如给3个“问题+答案”例子，模型就能回答新问题）。
- LLaMA系列：开源模型，用更高效的训练数据（如代码、书籍），参数从70亿到700亿，支持长文本（如4096token）。
应用：聊天机器人、文章生成、代码补全等“创作类”任务，比如根据提示写故事。

BERT类模型教会机器“理解语义”，GPT类模型教会机器“生成内容”，T5类模型打通“理解+生成”——它们共同构成了大语言模型（LLM）的技术地基。而LLM通过更大参数、更多数据和指令微调，进一步升级了这些能力，实现了“上下文学习”“指令遵循”等突破。

大模型学习 （Datawhale_Happy-LLM）笔记4: 预训练语言模型