大模型训练显存需求分析指南：从SFT到RLHF的实践之路

不打灰的小刘

已于 2024-10-11 22:26:33 修改

阅读量2.8k

点赞数 51

文章标签：人工智能 chatgpt gpu算力 agi llama 自然语言处理

于 2024-10-06 14:22:20 首次发布

本文链接：https://blog.youkuaiyun.com/budahui/article/details/142726478

版权

引言

随着大模型技术的快速发展，越来越多的研究者和开发者开始尝试自己训练或微调大模型。然而，大模型训练最大的门槛之一就是算力资源，特别是GPU显存的需求。本文将从实践角度出发，详细分析大模型训练中的显存需求，帮助读者更好地规划自己的训练资源。

显存需求概览

在大模型训练过程中，显存主要被以下几个部分占用：

模型权重
优化器状态
梯度
激活值
临时缓冲区

不同的训练阶段（如SFT、RLHF）对显存的需求也有所不同。

SFT阶段的显存分析

理论计算

以LLaMA-7B模型为例，让我们来分析SFT阶段的显存需求：

模型权重：7B参数 × 2字节(FP16) = 14GB
Adam优化器状态：7B参数 × 8字节 = 56GB
梯度：7B参数 × 2字节 = 14GB
激活值：依赖于序列长度和batch size

以上是LLaMA-7B大致的估算，可以参考llamfactory的显存计算助手查看更多模型的现存占用详情，例如：

在这里插入图片描述

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不打灰的小刘

关注关注

51
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LLM系列(3)：探索大模型RLHF优化之道：DeepSpeed-Chat超快速入门，对齐训练精度提升一步到位

丨汀、的博客

05-01

479

LLM系列(3)：探索大模型RLHF优化之道：DeepSpeed-Chat超快速入门，对齐训练精度提升一步到位

从零构建大语言模型全栈开发指南：第三部分：训练与优化技术-3.3.1指令微调（Instruction Tuning）与人类反馈强化学习（RLHF）

热门推荐

结构之法算法之道

07-05

1万+

2023年7月11日，百川智能发布Baichuan-13B(这是其GitHub地址Baichuan-13B 是继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型，本次发布包含以下两个版本预训练(对齐(，July注：我看了下代码，这里的对齐指的是通过对话数据对齐，即只做了SFT，没做RLHF)更大尺寸、更多数据Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到130亿，并且在高质量的语料上训练了1.4。

微调模型VS显存

马行处的博客

09-03

296

SFT：全参数微调包含梯度、优化器激活 1B精度-fp32-模型大约需要4GB梯度显存（每个参数都需要有一个梯度）： 4GB优化器显存：以adamw优化器为例，他需要自身参数+参数动量+参数方差=4GB+4GB+4GB=12GB； PEFT：需要的显存与模型没有大的区别，主要看PEFT部分，大概是几M到几GB。

大模型推理显存需求

强化学习曾小健

06-27

4888

根据官方说明，Model Memory Calculator提供的结果与实际显存需求之间的误差通常在50MB以内（例如，对于bert-base-cased模型，实际运行需要的显存为413.68MB，而工具估算的结果为413.18MB）。Memory Calculator是由HuggingFace的Accelerate团队开发的在线工具，用户只需输入HuggingFace平台上的模型链接，工具便能够迅速计算出该模型在运行过程中所需的显存大小，包括进行推理操作以及采用Adam算法进行训练时的显存需求。

【LLM】sft和pretrain数据处理和筛选方法

发现问题，并解决问题，批判性思维

10-29

8039

# note - 痛点：训练垂直领域模型，sft数据和增量pretrain数据质量把控很重要 - 当数据不够时，通过self-instruct等方法造多样化的数据 - 当数据很多时，需要清洗/筛选出高质量数据 @[toc] # 一、sft数据的筛选策略内容概要： - 构造sft数据 - 评估sft数据质量和数量 - 自动化筛选高质量sft数据 ## 1.1 使用self-instruct构造sft数据论文：《Self-Instruct: Aligning Language Model wit

大语言模型从零开始训练全面指南：预训练、Tokenizer训练、指令微调、奖励模型、强化学习

python1222_的博客

07-30

2671

在这篇文章中，我们将尽可能详细地梳理一个完整的 LLM 训练流程。包括模型预训练（Pretrain）、Tokenizer 训练、指令微调（Instruction Tuning）、奖励模型（Reward Model）和强化学习（RLHF）等环节。

万字长文详解大模型的 SFT 应该如何去做！

2401_85325726的博客

01-22

995

在大模型浪潮初期，我和我的前辈曾经有过一段对话。• 我：这工作（某个方向的 sft）交给我合适吗，我能胜任吗？• 前辈：这工作谁都能做。• 我：那你为啥选我来做？• 前辈：这不是因为我认识你，跟你熟悉嘛。• 我：……• 前辈：你做不做，不做有的是人想做，不行我招个实习生来做。• 我：我做我做，我当然做。

大模型入门2: 指令微调

yuetan的博客

12-17

7891

微调7B模型需要3×28G的显存(SGD+Momentum)，至少需要2张A100的显卡才能满足。

自动进化高质量sft数据

爱吃火锅的博客

08-17

1274

怎么做好sft数据系列又来了！！

一文讲明白大模型显存占用（只考虑单卡）

zenRRan的博客

08-20

1470

知乎：然荻链接：https://zhuanlan.zhihu.com/p/713256008纯知识分享，侵删1.告诉你一个模型的参数量，你要怎么估算出训练和推理时的显存占用？2.Lora相比于全参训练节省的显存是哪一部分？Qlora相比Lora呢？3.混合精度训练的具体流程是怎么样的？这是我曾在面试中被问到的问题，为了巩固相关的知识，打算系统的写一篇文章，帮助自己复习备战秋招的同时，希望也能帮到各...

【大模型LLM第十篇】利用One-Shot Learning从数据集中辨别和选择高质量sft数据

AI蜗牛车

08-28

1201

前言One-Shot Learning as Instruction Data Prospector for Large Language ModelsACL2024的文章，来自中科院深圳先进技术研究院link：https://arxiv.org/pdf/2312.10302github：https://github.com/pldlgb/nuggets一、摘要sft目前的实践通常取决于扩大数据规...

多模态大模型SFT数据处理

qq_43814415的博客

08-13

913

多模态数据处理：数据质量、数据数量、数据分布和数据安全。

大模型训练实战经验总结

淘系技术

08-21

1774

在当今AI技术飞速发展的背景下，定制化大模型的自主训练已成为满足特定行业需求、保障数据安全、提升模型应用效能的关键途径。本文将深度剖析这一过程的核心价值与实践智慧，从数据隐私保护、模型透明度增强，到数据预处理的精细操作，特别是数据配比在维持模型通用性与垂类能力平衡中的核心作用，为读者勾勒出一幅清晰的大模型训练全景图。背景▐定制化需求每个行业和应用场景都有其独特的需求，预训练的通用大模型可能并不...

llama-factory训练RLHF-PPO模型

weixin_42479327的博客

06-29

7939

除了ppo, dpo(Direct Preference Optimization:直接偏好优化)也是一种常见的调优手段, 不过多篇paper研究证明性能不如PPO, 在计算资源不足的情况下DPO也是个不过的选择,因为不需要训练奖励模型, 而且训练速度快,效果也比较稳定, 不像PPO那样很容易训崩.其他LLM偏好对齐训练技术还有ORPO,IPO,CPO以及效果看起来很棒的KTO.还有最新发表的RLOO,看起来比PPO更好更易训练.这个领域发展太快, 脑子快不够用了.