浅析大语言模型从预训练到微调的技术原理(硬核)

大纲

  • LLaMA、ChatGLM、Falcon等大语言模型的比较
    • tokenizer、位置编码、Layer Normalization、激活函数等
  • 大语言模型的分布式训练技术
    • 数据并行、张量模型并行、流水线并行、3D并行
    • 零冗余优化器ZeRO、CPU卸载技术ZeRo-offload
    • 混合精度训练、激活重计算技术
    • Flash Attention、Paged Attention
  • 大语言模型的参数高效微调技术
    • prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA

1.大语言模型的细节

1.0 transformer与LLM

Image

1.1 模型结构

Image

1.2 训练目标

Image

1.3 tokenizer

Image

1.4 位置编码

Image

1.5 层归一化

Image

1.6 激活函数

Image

1.7 Multi-query Attention与Grouped-query Attention

Image

1.8 并行transformer block

Image

1.9 总结-训练稳定性

Image

2.LLM的分布式预训练

2.0 点对点通信与集体通信

Image

2.1 数据并行

Image

2.2 张量并行

Image

Image

2.3 流水线并行

Image

2.4 3D并行

Image

2.5 混合精度训练

Image

2.6 激活重计算

Image

2.7 ZeRO,零冗余优化器

Image

2.8 CPU-offload,ZeRO-offload

Image

2.9 Flash Attention

Image

2.10 vLLM: Paged Attention

Image

3. LLM的参数高效微调

3.0 为什么进行参数高效微调?

Image

3.1 prompt tuning

Image

3.2 prefix tuning

Image

3.3 adapter

Image

3.4 LLaMA adapter

Image

3.5 LoRA

Image

3.6 实验比较

Image


【大模型介绍电子书】

快速揭秘DeepSeek背后的AI工作原理

要获取本书全文PDF内容,请【黑夜路人技术】VX后台留言:“AI大模型基础” 或者 “大模型基础” 就会获得电子书的PDF。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值