大模型学习 (Datawhale_Happy-LLM)笔记4: 预训练语言模型
一、概述
本章按 Encoder-Only、Encoder-Decoder、Decoder-Only 的顺序来依次介绍 Transformer 时代的各个主流预训练模型,分别介绍三种核⼼的模型架构、每种主流模型选择的预训练任务及其独特优势,这也是目前所有主流 LLM 的模型基础。
二、Encoder-only PLM
代表:BERT及其优化版本
- 结构:只用Transformer的Encoder部分,擅长分析文本语义(像“阅读理解专家” NLU)。
- 训练方法:
- MLM(掩码语言模型):随机遮住句子中的词,让模型猜,比如“我__苹果”→猜“吃”。
- NSP(下一句预测):判断两个句子是否连续,比如“今天天气好”和“我去散步”是否相关。
- 优化版本:
- RoBERTa:用更多数据(160GB)、更大batch训练,去掉NSP任务,效果更好。
- ALBERT:压缩参数(如共享层权重),用更难的SOP任务(判断句子顺序是否颠倒),性价比更高。
- 应用:适合文本分类、情感分析等“理解类”任务,比如判断新闻属于“体育”还是“科技”。
三、Encoder-Decoder模型:“理解+生成”的多面手
代表:T5
- 结构:同时用Encoder和Decoder,像“翻译机”——Encoder理解输入,Decoder生成输出。
- 训练方法:将所有任务转化为“文本到文本”,比如翻译(“中文→英文”)、摘要(“长文→短文”)。
- 特点:通过统一任务格式(加前缀,如“translate: 你好→Hello”),适应多种任务,但参数更多,训练更复杂。
四、Decoder-only模型
代表:GPT系列、LLaMA
- 结构:只用Transformer的Decoder,擅长“续写”内容(像“文章接龙达人”)。
- 训练方法:CLM(因果语言模型),根据上文预测下一个词,比如“今天天气晴朗,适合__”→猜“去公园”。
- 进化路径:
- GPT-1到GPT-3:参数从1.17亿涨到1750亿,通过“少量示例+提示”就能完成任务(如给3个“问题+答案”例子,模型就能回答新问题)。
- LLaMA系列:开源模型,用更高效的训练数据(如代码、书籍),参数从70亿到700亿,支持长文本(如4096token)。
- 应用:聊天机器人、文章生成、代码补全等“创作类”任务,比如根据提示写故事。
五、三类模型的核心区别
类型 | 代表模型 | 擅长任务 | 训练目标 |
---|---|---|---|
Encoder-only | BERT | 文本理解 | 猜词、判断句子关系 |
Encoder-Decoder | T5 | 翻译、摘要 | 将一种文本转为另一种文本 |
Decoder-only | GPT | 内容生成 | 按顺序续写文本 |
六、预训练+微调
- 预训练:模型在无标注大数据(如网页、书籍)中自学语言规律,耗时耗力(如GPT-3用570GB数据训练)。
- 微调:用少量标注数据(如1000条情感评论)让模型适应具体任务,比如让GPT-3学会“判断评论是好评还是差评”。
- 优势:避免从零训练大模型,节省成本,且模型泛化能力更强(像学过百科全书的学生,学专业课更快)。
七、总结
BERT类模型教会机器“理解语义”,GPT类模型教会机器“生成内容”,T5类模型打通“理解+生成”——它们共同构成了大语言模型(LLM)的技术地基。而LLM通过更大参数、更多数据和指令微调,进一步升级了这些能力,实现了“上下文学习”“指令遵循”等突破。