大模型学习 (Datawhale_Happy-LLM)笔记4: 预训练语言模型

大模型学习 (Datawhale_Happy-LLM)笔记4: 预训练语言模型

一、概述

本章按 Encoder-Only、Encoder-Decoder、Decoder-Only 的顺序来依次介绍 Transformer 时代的各个主流预训练模型,分别介绍三种核⼼的模型架构、每种主流模型选择的预训练任务及其独特优势,这也是目前所有主流 LLM 的模型基础。

二、Encoder-only PLM

代表:BERT及其优化版本

  1. 结构:只用Transformer的Encoder部分,擅长分析文本语义(像“阅读理解专家” NLU)。
  2. 训练方法
    • MLM(掩码语言模型):随机遮住句子中的词,让模型猜,比如“我__苹果”→猜“吃”。
    • NSP(下一句预测):判断两个句子是否连续,比如“今天天气好”和“我去散步”是否相关。
  3. 优化版本
    • RoBERTa:用更多数据(160GB)、更大batch训练,去掉NSP任务,效果更好。
    • ALBERT:压缩参数(如共享层权重),用更难的SOP任务(判断句子顺序是否颠倒),性价比更高。
  4. 应用:适合文本分类、情感分析等“理解类”任务,比如判断新闻属于“体育”还是“科技”。

三、Encoder-Decoder模型:“理解+生成”的多面手

代表:T5

  1. 结构:同时用Encoder和Decoder,像“翻译机”——Encoder理解输入,Decoder生成输出。
  2. 训练方法:将所有任务转化为“文本到文本”,比如翻译(“中文→英文”)、摘要(“长文→短文”)。
  3. 特点:通过统一任务格式(加前缀,如“translate: 你好→Hello”),适应多种任务,但参数更多,训练更复杂。

四、Decoder-only模型

代表:GPT系列、LLaMA

  1. 结构:只用Transformer的Decoder,擅长“续写”内容(像“文章接龙达人”)。
  2. 训练方法CLM(因果语言模型),根据上文预测下一个词,比如“今天天气晴朗,适合__”→猜“去公园”。
  3. 进化路径
    • GPT-1到GPT-3:参数从1.17亿涨到1750亿,通过“少量示例+提示”就能完成任务(如给3个“问题+答案”例子,模型就能回答新问题)。
    • LLaMA系列:开源模型,用更高效的训练数据(如代码、书籍),参数从70亿到700亿,支持长文本(如4096token)。
  4. 应用:聊天机器人、文章生成、代码补全等“创作类”任务,比如根据提示写故事。

五、三类模型的核心区别

类型代表模型擅长任务训练目标
Encoder-onlyBERT文本理解猜词、判断句子关系
Encoder-DecoderT5翻译、摘要将一种文本转为另一种文本
Decoder-onlyGPT内容生成按顺序续写文本

六、预训练+微调

  1. 预训练:模型在无标注大数据(如网页、书籍)中自学语言规律,耗时耗力(如GPT-3用570GB数据训练)。
  2. 微调:用少量标注数据(如1000条情感评论)让模型适应具体任务,比如让GPT-3学会“判断评论是好评还是差评”。
  3. 优势:避免从零训练大模型,节省成本,且模型泛化能力更强(像学过百科全书的学生,学专业课更快)。

七、总结

BERT类模型教会机器“理解语义”,GPT类模型教会机器“生成内容”,T5类模型打通“理解+生成”——它们共同构成了大语言模型(LLM)的技术地基。而LLM通过更大参数、更多数据和指令微调,进一步升级了这些能力,实现了“上下文学习”“指令遵循”等突破。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值