deepspeed&zero及大模型显存占用

最新推荐文章于 2025-09-24 11:58:19 发布

原创

最新推荐文章于 2025-09-24 11:58:19 发布 · 1.5k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

我们先来看模型训练过程中的显存占用，大模型的显存占用主要分布在两个地方：

1. 模型状态维护上

2. 激活值

这是ZeRO的论文：https://arxiv.org/pdf/1910.02054

先来看下混合精度训练, 根据ZeRO的论文，混合精度训练（Mixed-Precision Training）是当前训练大模型的SOTA的方式。这个方式上：

* 模型参数，及参与运算后计算出的激活值，以及反向传播时候的梯度值等，全部都是以fp16来存储。

* 模型梯度算出来之后，要用梯度来更新模型参数的时候，会用fp32来进行更新，也就是说，原始的参数有一份一直存着的fp32的副本。然后一次迭代的流程应该就是（猜测）：

* fp32的参数副本，转一份为fp16的参数

* fp16的参数参与运算，算出fp16的激活值，以及fp16的梯度

* fp16的梯度，转为fp32的梯度

* fp32的梯度被用到更新fp32参数的过程中

基于上述内容，来看

先来看第一块儿：模型状态维护

1. 参与训练forward及backward过程的部分：

模型参数本身，例如模型大小是7B，用fp16/bf16一个参数2个字节的话，就是2*7B的空间占用

各个参数对应的梯度值，每个参数一个梯度值，

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Caleb_X

关注关注

19
点赞
踩
34

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Pytorch基础教程41】DeepSpeed分布式训练框架

发现问题，并解决问题，批判性思维

07-10

1万+

在 DeepSpeed 中，可以通过在配置文件中设置 “bf16.enabled”: true 来启用 BF16 混合精度训练，减少占用内存。混合精度训练是指在训练过程中同时使用FP16（半精度浮点数）和FP32（单精度浮点数）两种精度的技术。 deepspeed可以根据具体情况选择合适的通信库，例如在 CPU 集群上进行分布式训练，可以选择 mpi 和 gloo；如果是在 GPU 上进行分布式训练，可以选择 nccl。 mpi 是一种跨节点通信库，常用于 CPU 集群上的分布式训练； gloo 是一种高

LLM-分布式训练工具01-DeepSpeed：ZeRO-1、ZeRO-2、ZeRO-3配置【DeepSpeed的核心就在于，GPU显存不够，CPU内存来凑】

u013250861的博客

06-13

6077

现在的模型越来越大，动辄几B甚至几百B。但是显卡显存大小根本无法支撑训练推理。例如，一块RTX2090的10G显存，光把模型加载上去，就会OOM，更别提后面的训练优化。作为传统pytorch Dataparallel的一种替代，DeepSpeed的目标，就是为了能够让亿万参数量的模型，能够在自己个人的工作服务器上进行训练推理。本文旨在简要地介绍Deepspeed进行大规模模型训练的核心理念，以及最基本的使用方法。

参与评论您还未登录，请先登录后发表或查看评论

DeepSpeed混合精度训练：FP16/BF16实战

热门推荐

摩登都市天空---专栏

05-17

6万+

DeepSpeed是由Microsoft提供的分布式训练工具，旨在支持更大规模的模型和提供更多的优化策略和工具。与其他框架相比，DeepSpeed支持更大规模的模型和提供更多的优化策略和工具。其中，主要优势在于支持更大规模的模型、提供了更多的优化策略和工具（例如 ZeRO 和 Offload 等）

大模型面经 | DeepSpeed中ZeRO-1、ZeRO-2和ZeRO-3的区别是什么？

皮先生的博客

04-18

1902

ZeRO是用于大规模模型训练优化的技术，它的主要目的是减少模型的内存占用，让模型可以在显卡上训练，内存占用主要分为Model States和Activation两个部分，ZeRO主要解决的是Model States的内存占用问题。

LLM-分布式训练工具01-DeepSpeed：ZeRO系列【将显存优化进行到底】

u013250861的博客

06-16

1196

目前训练超大规模语言模型主要有两条技术路线：TPU + XLA + TensorFlow/JAX 和 GPU + PyTorch + Megatron-LM + DeepSpeed。前者由Google主导，由于TPU和自家云平台GCP深度绑定，对于非Googler来说，只可远观而不可把玩，后者背后则有NVIDIA、Meta、MS大厂加持，社区氛围活跃，也更受到群众欢迎。

DeepSpeed之ZeRO系列：将显存优化进行到底

强化学习曾小健

02-15

2507

目前训练超大规模语言模型主要有两条技术路线：TPU + XLA + TensorFlow/JAX 和 GPU +。前者由Google主导，由于TPU和自家云平台GCP深度绑定，对于非Googler来说，只可远观而不可把玩，后者背后则有NVIDIA、Meta、MS大厂加持，社区氛围活跃，也更受到群众欢迎。上面提到的DeepSpeed的核心是ZeRO(Zero Redundancy Optimizer)，简单来说，它是一种显存优化的数据并行(data parallelism, DP)方案。

大模型训练如何节省显存 - DeepSpeed ZeRO

月亮不知道的博客

04-17

1965

训练大模型需要巨大的资源，单卡显存已经越来越难以满足存放整个模型，因此诞生了大模型训练技术，典型的如 DeepSpeed ZeRO 和 FairScale 的完全分片数据并行（Fully Sharded Data Parallel, FSDP）技术，其允许在数据并行进程之间分片模型的参数、梯度和优化器状态，并同时仍然保持数据并行的简单性。DeepSpeed的Zero Redundancy Optimizer（ZeRO）通过在多个GPU之间分割模型的权重、梯度和优化器状态，显著减少了每个GPU所需的内存量。

大模型训练框架 DeepSpeed 详解

weixin_41174300的博客

08-26

6283

DeepSpeed 是一个由微软研究院开发的深度学习优化库，它主要针对大规模分布式训练进行了优化，尤其是在使用大量 GPU 进行训练时可以显著提高效率。DeepSpeed 旨在降低模型并行和数据并行的通信开销，同时提供了一系列工具来帮助研究人员和开发者更容易地训练大型模型。

deepspeed的参数

qq_50097745的博客

09-20

3925

deepspeed的参数很多，都可以在ds_config里面配置，字典格式，但是英文文档让人看着总感觉不习惯，所以，看完英文文档的同时，将其部分翻译成中文文档，以供后续训练的时候观看。

大模型训练的关键技术之基础框架

白话机器学习

01-14

1215

但是，由于FP16的精度较低，训练过程中可能会出现梯度消失和模型不稳定的问题。在混合精度训练中，BF16可以作为一种精度更高的替代品，用于一些关键的计算操作，例如梯度累加和权重更新等。在使用混合精度训练时，需要使用一些技术来解决可能出现的梯度消失和模型不稳定的问题，例如动态精度缩放和混合精度优化器等。ZeRO-Offload和ZeRO-Stage3是DeepSpeed中的不同的Zero-Redundancy Optimization技术，用于加速分布式训练，主要区别在资源占用和通信开销方面。

LLM-分布式训练工具（一）：DeepSpeed【微软】【大模型分布式训练工具，实现ZeRO并行训练算法】【zero3配置将模型参数切分后分配到不同的显卡中，突破单张显卡容量不足以加载模型参数的限制】

u013250861的博客

06-10

1万+

DeepSpeed是微软推出的大规模模型分布式训练的工具，主要实现了ZeRO并行训练算法。本文是huggingface的DeepSpeed文档的笔记，做查询和备忘，初次学习建议结合原始文档食用。

DeepSpeed性能调优与常见问题解决方案

hello.reader

10-21

6976

ZeRO（Zero Redundancy Optimizer）是一种用于大规模分布式深度学习的优化技术，旨在消除数据并行训练中的冗余内存开销。传统的数据并行方法会在每个设备上保存完整的模型参数、梯度和优化器状态，这导致了巨大的内存消耗。ZeRO通过将这些组件在多个设备之间进行分片，从而极大地降低了单个设备的内存需求。Transformer模型中的自注意力机制在处理长序列时，会带来O(N^2)的计算复杂度和内存需求。这限制了模型在长序列任务中的应用，如长文本生成、DNA序列分析等。

DeepSpeed ZeRO-3 内存估算

budahui的博客

09-26

1860

DeepSpeed ZeRO-3 提供了灵活的内存优化选项，允许在不同的硬件配置下高效训练大型模型。理解各参数的作用及其相互影响对于优化训练过程至关重要。在实际应用中，需要根据具体的模型大小、硬件资源和训练需求来选择最合适的配置。

详解 DeepSpeed Zero 的各个 Stage 状态及日常使用

CK的博客

04-04

9652

通过运行发现，如果我们的模型本身占用的显存不大，比如选用了较小参数模型，那么绝大部分显存是被前向传播过程中产生的激活值所占用，这是很好理解的，激活内存用于存储神经网络在前向传播过程中计算的中间激活值。的设置，在每次进行反向传播的过程中，梯度被平均放在了各个设备上，在做梯度下降的过程中，会对梯度打包成一个个 chunk ，再进行梯度下降，当然这样做的原因就在于提高效率，但是当打包的尺寸太大时，也会导致显存占用的增加，控制这个打包尺寸的参数可以通过修改。相反，在前向传递中，将保存输入元组和函数参数。

深度学习基础理论————DeepSpeed

weixin_40841333的博客

01-14

2672

DeepSpeed原理 DeepSpeed 是由微软开发的一种深度学习优化库，专为高性能训练和推理而设计，尤其适用于大规模深度学习模型（如 GPT 系列、BERT 等）。它通过一系列技术和优化策略，帮助研究者和开发者高效利用硬件资源，实现快速训练、降低内存使用以及提升推理速度。正如其官方描述那样： Image From: https://github.com/microsoft/DeepS...

自定义模型如何使用deepspeed的zero3

12-30

### 使用 Deepspeed Zero3 进行自定义模型训练为了在自定义深度学习模型中应用 Deepspeed 的 Zero3 来优化训练过程，从而提高效率和减少内存占用，需遵循特定配置方法[^2]。 #### 安装依赖库首先安装必要的 Python 库来支持 Deepspeed 和 PyTorch： ```bash pip install deepspeed transformers torch ``` #### 配置 Deepspeed 参数文件创建一个 JSON 文件 `ds_config.json` 用于指定 Deepspeed 设置。对于 Zero3 而言，此文件应包含如下内容: ```json { "fp16": { "enabled": true, "loss_scale": 0, "initial_scale_power": 16, "loss_scale_window": 1000, "hysteresis": 2, "min_loss_scale": 1 }, "optimizer": { "type": "AdamW", "params": { "lr": 3e-5, "betas": [ 0.9, 0.999 ], "eps": 1e-8, "weight_decay": 0.0 } }, "zero_optimization": { "stage": 3, "offload_optimizer": { "device": "cpu" }, "overlap_comm": true, "contiguous_gradients": true, "reduce_bucket_size": 5e8, "allgather_partitions": true, "allgather_bucket_size": 5e8, "max_live_parameters": 1e7, "sub_group_size": 1e9 }, "gradient_accumulation_steps": 1, "steps_per_print": 2000, "wall_clock_breakdown": false } ``` 上述配置启用了 FP16 训练模式以及第三阶段的 ZeRO 技术，并允许将优化器状态卸载到 CPU 内存以节省 GPU 显存资源。 #### 修改训练脚本引入 Deepspeed 支持接下来调整现有的训练代码以便利用 Deepspeed 提供的功能。这里展示了一个简单的例子说明怎样集成这些改动： ```python import torch from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments import deepspeed model_name_or_path = 'bert-base-cased' train_dataset = ... # 用户自己的数据集加载逻辑 eval_dataset = ... # 同上 training_args = TrainingArguments( output_dir='./results', num_train_epochs=3, per_device_train_batch_size=16, per_device_eval_batch_size=16, warmup_steps=500, weight_decay=0.01, logging_dir='./logs', ) # 初始化带有 Deepspeed 的 trainer 对象 trainer = Trainer( model_init=lambda: AutoModelForSequenceClassification.from_pretrained(model_name_or_path), args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset, # 添加 Deepspeed 参数路径 deepspeed='ds_config.json' ) if __name__ == "__main__": # 开始训练前初始化 Deepspeed 环境变量 deepspeed.init_distributed() # 执行实际训练流程 trainer.train() ``` 这段代码展示了如何通过设置 `Trainer` 类中的参数来启用 Deepspeed 功能，并指定了之前准备好的配置文件位置。此外，在主程序入口处调用 `deepspeed.init_distributed()` 方法完成分布式环境初始化操作[^4]。