大模型的显存占用计算方法

LLM模型内存占用解析

最新推荐文章于 2025-07-16 20:15:26 发布

原创最新推荐文章于 2025-07-16 20:15:26 发布 · 2.3k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #ai

参数的数量和量化决定了模型的大小，这是使用LLM的一个主要限制。

要使用 LLM，我们必须将模型放入内存中。使用 32 位浮点 (FP32)，1 个参数需要 4 字节 RAM。

使用 16 位量化（BFLOAT16 或 FP16），我们可以将其减少到 1 个参数的 2 字节 RAM。

对于 8 位整数 (INT8)，我们需要 1 字节的 RAM 用于 1 个参数。

因此，在内存中存储 10 亿 (1B) 个 LLM 参数需要大约 4GB 内存（32 位全精度）、2GB 内存（16 位半精度）和 1GB 内存（8 位精度）。

举例来说，我的 GeForce 2060 显卡有 6 GB 的内存，可以容纳大约 1.5B 参数@32 位，或 3B 参数@16 位，或 6B 参数@8 位。

但是，仅加载 CUDA 内核就会消耗 1-2GB 的内存。因此，实际上，您无法仅使用参数填满整个 GPU 内存。

训练 LLM 需要更多的 GPU RAM，因为优化器状态、梯度和前向激活每个参数都需要额外的内存 [3]。

选择 LLM 时，请查看 GPU 有多少 GB 的内存，然后选择合适的模型。使用 1B 参数 = 2GB@16 位或 1GB@8 位作为经验法则。

欢迎你分享你的作品到我们的平台上. http://www.shxcj.com 或者 www.2img.ai 让更多的人看到你的才华。

创作不易，觉得不错的话，点个赞吧！！！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

RA AI衍生者训练营

关注关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

速算：大模型训练和推理的显存占用计算

丨汀、的博客

04-30

603

速算：大模型训练和推理的显存占用计算

大模型显存占用评估完整指南

羊城迷鹿的博客

07-01

787

大模型的显存大小，与大模型本身的参数量有关，与是训练还是推理过程有关，而训练过程采用的训练参数以及推理过程采用的推理参数也会影响。模型参数量：决定了模型权重的基础存储需求运行模式：训练过程需要存储梯度和优化器状态，显存需求远高于推理训练方法：全参数微调、LoRA、QLoRA等不同方法的显存需求差异巨大量化精度：FP32、FP16、INT8、INT4等不同精度直接影响显存占用推理参数：批次大小、序列长度、KV缓存等都会显著影响推理时的显存需求。

参与评论您还未登录，请先登录后发表或查看评论

一文讲明白大模型显存占用（只考虑单卡）

zenRRan的博客

08-20

2736

知乎：然荻链接：https://zhuanlan.zhihu.com/p/713256008纯知识分享，侵删1.告诉你一个模型的参数量，你要怎么估算出训练和推理时的显存占用？2.Lora相比于全参训练节省的显存是哪一部分？Qlora相比Lora呢？3.混合精度训练的具体流程是怎么样的？这是我曾在面试中被问到的问题，为了巩固相关的知识，打算系统的写一篇文章，帮助自己复习备战秋招的同时，希望也能帮到各...

本地化部署32B版本残血DeepSeek R1模型

xiangzhihong8的专栏

02-09

2万+

选择32B模型：若需平衡性能与成本，且场景偏向通用任务（如企业文档处理），本地部署是优选。选择满血版：仅限科研或需极致性能的场景，但需承担高昂硬件成本与部署复杂度。安全优化：无论选择何种版本，建议结合加密技术、分层权限管理以降低本地化风险4。通过合理配置硬件与工具（如Ollama、LM Studio），32B模型可在大多数场景下提供高效且安全的本地AI服务，但需对其性能边界有清晰认知57。

☘️AI大模型部署

bailuo的博客

02-04

1274

DeepSeek R1模型本地部署

大模型显存占用分析笔记：模型显存，训练显存，推理显存，显存优化

最新发布

学习记录

07-16

845

模型显存，训练显存，推理显存，显存优化

大模型显存占用计算

Foolbird123的博客

09-16

700

为了详细说明模型的参数数量和每个参数在显存中占用的空间大小，我们以。每个参数的显存占用。

大模型扫盲之推理时显存占用计算

算法熔炉的博客

04-19

965

快速计算大模型推理时所需显存

深入解析大模型显存占用大小：公式、推导及实例分析

weixin_41174300的博客

10-03

3132

在深度学习中，模型的显存（GPU memory）占用是决定训练和推理效率的关键因素之一。特别是近年来，随着模型参数规模的不断增长，显存的合理分配和优化变得至关重要。本文将深入讲解模型在显存上的主要占用来源，提供详细的计算公式和具体例子，帮助读者理解显存需求的不同来源及如何进行优化。

大模型GPU显存占用计算

weixin_44532170的博客

12-03

7206

以参数量13B大模型为例，其中B是Billion，代表十亿参数，13B就是130亿参数其中每个参数全精度是fp32，也就是float32，占用32位bit，也就是4byte字节。那么全精度13B模型占用。

模型参数量与显存占用分析

Drug discovery

07-10

9990

由于反向传播、Adam优化和Transformer架构等因素，保守估计，训练所需的显存是模型参数所占显存的4倍（1x 为模型、1x 为梯度、1~2x 为优化器）。为了确保训练期间模型收敛，参数类型一般不能是int8或int4。注1：使用AdamW优化器，显存需求为2x；使用SGD优化器，显存需求为1x。训练所需的显存是模型参数所占显存的1倍（1x 为模型）。训练一个1B模型大约需要16GB（4GB x 4）。训练一个1B模型大约需要4GB（4GB x 1）。例如，使用单浮点精度。例如，使用单浮点精度。

不同参数规模大语言模型在不同微调方法下所需要的显存总结

DataLearnerAI

12-24

3412

这个模型在微调的时候需要的显存大小和450亿参数规模的模型相当。推理现存与微调显存实际上不会有什么优势（根据实际测试，Mixtral 8×7B MoE推理最少也要90多G的显存）。不过，这也会降低一点精度。大模型的微调是当前很多人都在做的事情。微调可以让大语言模型适应特定领域的任务，识别特定的指令等。但是大模型的微调需要的显存较高，而且比较难以估计。与推理不同，微调过程微调方法的选择以及输入序列的长度、批次大小都会影响微调显存的需求。本文根据LLaMA Factory的数据总结一下大模型微调的显存要求。

模型参数量与显存大小关系

m0_59792363的博客

07-22

1957

qwen/Qwen-1_8B-Chat-Int4 # 半字节[4位整数，精度损失很大，适用于对精度要求不高但对资源要求苛刻的场景] 0.5*1.8≈0.9G --> 实际1.88GB。q8_0 q6_k q5_k_m q5_0 q4_k_m q4_0 q3_k_m q2_k 不同的优化格式选择。qwen/Qwen-1_8B-Chat-Int8 # 1字节[8位整数] 1*1.8≈1.8G --> 实际 2.5G。，但是同样有很多显卡吃不消。

3B模型大概占多少存储

frostmelody 全网同名，大家多多关注呀~ 持续分享优质内容！

06-06

1112

FP32（4 字节/参数）：约12 GB，适合训练阶段使用。FP16（2 字节/参数）：约6 GB，兼顾精度与推理效率。INT8（1 字节/参数）：约3 GB，适合资源受限的部署场景。INT4（0.5 字节/参数）：约1.5 GB，存储需求最小，但相对更容易影响模型性能。以 LLaMA 3.2 3B 模型为例，其在不同精度下的显存需求如下精度类型显存需求（约）FP166.5 GBFP83.2 GBINT41.75 GB。

大模型进阶微调篇（一）：以定制化3B模型为例，各种微调方法对比-选LoRA还是PPO，所需显存内存资源为多少？

分享有趣的、贴近生活的CS知识

10-18

2582

如果你想要快速、高效地对模型进行微调，且用户反馈较为简单（例如只选择最佳答案），LoRA是一个不错的选择。如果你需要在复杂的交互环境中不断优化模型性能，且用户能够提供详细的反馈（如评分），那么PPO是更合适的选择。当数据规模较小时，LoRA 更加高效；而在数据规模较大时，PPO 更能发挥其优势。根据数据规模（1k-10k、10k-50k、50k+），选择合适的微调方法可以最大化地提高模型的性能和训练效率。

一文读懂大模型显存需求：从0.5B到70B，你的显卡够用吗？

热门推荐

2401_85373691的博客

02-05

5万+

阿里开源的32B大模型到底强在哪里？

程序员，AI探索者

04-15

3513

阿里巴巴最近开源了一个320亿参数的大语言模型Qwen1.5-32B，网上都说很强很强，那么它到底强在哪里呢？

大模型训练显存占用计算

03-15

### 大模型训练时显存占用量的计算方法 在大模型训练期间，显存主要被以下几个方面占据： - **模型参数**：这是指网络权重和其他可学习变量所需的内存空间。对于不同的数据类型，每种类型的字节数有所不同[^4]。对于浮点数表示法而言，在单精度（`fp32`）下每个数值需4个字节；而在半精度（`fp16` 或 `bf16`）则只需2个字节；整型量化至8位(`int8`)仅需1个字节来表达一个值。因此，当采用较低的数据精度时能够有效减少显存量的需求。 - **激活函数产生的中间结果**：这些是在前向传播过程中由各层运算所产生的临时张量，它们会在反向传播阶段用于梯度计算并最终释放掉。这部分显存消耗取决于批次大小(batch size)以及输入序列长度等因素的影响。 - **梯度信息**：针对全量参数训练模式下的情形，整个神经网络的所有参数都会参与到梯度更新之中，这意味着除了原本就存在的模型参数外还需要额外相同体积的空间用来保存对应的梯度值。然而，在应用低秩自适应(LoRA)[^2]或其他特定策略的情况下，则无需为原生模型分配相应的梯度存储区域，因为只有新增加的小规模模块才会经历实际意义上的调整过程。 - **优化器状态**：像Adam这样的高级优化算法会维护一些辅助性的统计量比如一阶矩估计(mean of gradients) 和二阶矩估计(uncentered variance of the gradients)，这同样增加了总的GPU RAM负担。不过值得注意的是，在某些简化版或者定制化的场景里可能不会涉及到此类开销项。综上所述，为了更精确地评估一次完整的迭代周期内的总显存需求，可以按照以下公式进行粗略估算: \[ \text{Total GPU Memory} = (\text{Model Parameters Size}) + (Batch\,Size × Sequence\,Length × Hidden\,Dimension × Precision) + (\text{Gradient Storage for Full Training or Only LoRA Part}) + (\text{Optimizer States if any}) \] 其中，“隐藏维度”指的是每一时刻处理单元内部特征的数量；而“精度”则是指上述提到的不同数值格式所带来的差异性影响因素之一。 ```python def estimate_gpu_memory_usage( model_params_size: int, batch_size: int, seq_length: int, hidden_dim: int, precision_bytes: float, full_training=True): activation_mem = batch_size * seq_length * hidden_dim * precision_bytes gradient_mem = model_params_size * precision_bytes \ if full_training else 0 optimizer_state_mem = model_params_size * 1.2 * precision_bytes \ if not isinstance(optimizer_states_multiplier, type(None)) else 0 total_memory = sum([ model_params_size * precision_bytes, # Model parameters memory activation_mem, # Activation memory during forward pass gradient_mem, # Gradient storage optimizer_state_mem # Optimizer states memory ]) return total_memory / (1024 ** 3) # Convert bytes to GBs ```