大模型-模型预训练-可拓展的训练技术

最新推荐文章于 2025-03-23 21:18:50 发布

一个研究技术、玄学、金融的干过码农的人

最新推荐文章于 2025-03-23 21:18:50 发布

阅读量347

点赞数 4

分类专栏：大模型文章标签：大模型人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sgliquangang/article/details/142559814

版权

大模型专栏收录该内容

33 篇文章

订阅专栏

一、简介

1、作用

提高训练效率

2、方案

3D并行训练
零冗余优化器
激活重计算
混合精度训练

二、3D并行训练

1、组成

数据并行
流水线并行
张量并行

2、数据并行

作用：提高训练吞吐量，通过增加GPU提升训练效率
原理：将模型参数和优化器状态复制到多个GPU上，然后将训练数据平均分配到这些GPU上，这样每个GPU只需要处理分配给它的数据，然后执行前向传播和反向传播以获得梯度，当所有GPU都执行完之后，该策略会将不同的GPU梯度进行平均，以得到整体的梯度来统一更新所有GPU上的模型参数
优点：
- 高可拓展性，通过增肌GPU即可提效
- 实现简单，多数深度学习库都提供支持，比如TensorFlow和PyTorch

3、流水线并行

方法：将大模型不同层的参数分配到不同的GPU上，以减少GPU之间传输隐藏状态或梯度的成本，为了避免多GPU串行导致的效率低下问题，需要使用梯度雷击进行优化
梯度累积：计算1个批次的梯度后不立刻更新模型参数，而是累积几个批次之后再更新，这样可以再不增加显存消耗的情况下模拟更大的批次

4、张量并行

介绍：将大模型加载到多个GPU上的技术，与流水线并行类似，流水线并行是将模型不同层分配到不同的GPU上，相较而言，张量并行分配的粒度更细，它进一步分解了模型的参数张量（参数矩阵），以便更高效的利用GPU算力
开源库支持情况：多个开源库中得到支持，例如Megatron-LM支持对参数矩阵按行按列分块进行张量并行

三、零冗余优化器

1、作用

通过降低数据并行中的模型冗余度，来提高训练效率

2、方式介绍

由DeepSpeed提出，用于解决数据并行中的模型冗余问题，优化掉不参与训练的部分，提高训练效率，每个GPU只保留部分，需要时再读取，降低显存冗余度

3、模型冗余问题

每张GPU在训练时都需要复制一份模型参数，有大部分实际是不参与训练的，这部分就是冗余

四、激活重计算

1、作用

又称梯度检查点，用于优化反向传播时的显存占用的技术

2、原理

在前向传播期间仅保留部分激活值，在反向传播时重新计算激活值，以节约显存，但是会引入额外计算开销

五、混合精度训练

1、原理

相比早起使用的单精度浮点数训练方式，使用半精度浮点（2个字节）和单精度浮点（4个字节）组成的混合精度训练技术，可以实现显存开销减半、训练效率翻倍

2、过程

首先会存一份原始的32位模型参数副本，在训练过程中，先将32位参数转化为16位参数，随后以16位参数执行前向传播和反向传播，最后再更新32位参数

3、优点

模型训练中，前向传播和反向传播占了大多数优化时间，所以混合精度训练可以显著提升训练效率

4、最新方案

将浮点数里面表示尾数的内存部分占用减少，例如谷歌研究人员提出半精度浮点数里面的1位符号位、5位指数位、10位尾数位，调整为1位符号位、8位指数位、7位尾数位，表示范围可以扩大到10的38次方

一个研究技术、玄学、金融的干过码农的人

博客等级

码龄13年

412
原创

1138
点赞

1106
收藏

1038
粉丝

关注

私信

热门文章

分类专栏

大模型 33篇
玄学 7篇
中间件、工具 17篇
编程基础 1篇
管理、情商、格局 3篇
数码 3篇
项目管理 1篇
后端 4篇
办公 8篇
算法 23篇
Java 42篇
产品 1篇
区块链 1篇
Linux 11篇
C、C++ 2篇
前端 1篇
iOS 151篇
python 1篇

展开全部收起

最新评论

直播-rtmp拉流测试地址
青春向前: 第一个没拉到，第二个拉到了
Java-设计模式
倾听一世，繁花盛开: 写的太完美了，互关一下吧
codeblock couldn‘t create project directory ：path
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
iOS 数据库升级
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
iOS 数据库升级
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。