LLM 参数量和内存占用计算

原创已于 2025-02-26 23:29:38 修改 · 1.5k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

于 2024-02-15 18:43:09 首次发布

本文探讨了不同精度（fp32、fp16、int8）下模型参数的存储需求，以及混合精度对内存的影响。同时提及训练过程中梯度和优化器（如Adam）对内存占用的额外考虑。

7b = 7billion = 7*10^9 个参数（1billion就是10亿就是9个0）

fp32精度，一个参数4byte，1G=10^9 byte, 所以 7b就占7*4GB。

fp16精度，一个参数2byte， 7b就占7*2GB

int8精度，一个参数1byte， 7b就占7*1GB

混合精度（fp16/32），存储fp16精度+fp32精度 = 14GB +28GB = 42GB

此外，训练时占内存的还有梯度（和模型参数本身大小一样），优化器（如使用adam，是模型本身大小*2，因为要计算动量和方差）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

__心似大海__

关注关注

11
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

LLM-2022：OPT【参数量：1750亿（175B）】【用于训练的token数量：180B】【MetaAI】

u013250861的博客

02-24

1348

该公司将根据来自研究、产业、政府和民间组织的选定合作伙伴的需求，制作具有 1750 亿个参数的最大的 OPT 模型，它们应该能够分析语言处理中神经网络的权重和连接。Meta的AI部门发布了一个经过广泛训练的语言模型来推进人工智能研究，特别是针对语言 AI本身弱点的研究。“我们认为，整个人工智能社区——学术研究人员、民间团体、政策制定者和行业——需要共同努力，为负责任的人工智能，特别是负责任的大型模型，制定明确的指导方针，因为它们是许多下游语言应用程序的核心。”Meta的研究团队写道。

LLM - 大模型 LoRA 微调的超参数与参数量 教程

AGI

11-28

2197

LoRA(Low-Rank Adaptation, 低秩适配)，微调预训练大模型的技术，即参数有效微调(Parameter-Efficient Fine-tuning, PEFT)，在不改变原始权重的基础上，引入可训练的低秩分解矩阵调整模型参数，适应特定任务或领域。冻结预训练模型的参数，在 Transfomer 的每一层中，加入可训练的旁路矩阵(低秩可分离矩阵)，将旁路输出与初始路径输出相加，输入到网络当中，只训练这些新增的旁路矩阵参数。

参与评论您还未登录，请先登录后发表或查看评论

LLM__llama-7B模型试验

RL小站

04-19

4864

llama模型已经开源很久了，所以拿做小的模型做了个简单尝试。

LLM大模型参数量、计算量与显存占用完全解析：从入门到精通！

最新发布

Trb201013的博客

09-24

1021

本文详细分析了LLM大模型的参数量、计算量和显存占用。从decoder-only架构出发，深入探讨了注意力层(MHA/GQA/MLA)、MLP层、归一化层和嵌入层的参数计算方法，并通过Qwen3和DeepSeek V3的实际案例展示了参数分布特点。同时，分析了不同精度下的模型参数内存需求和推理内存需求，为开发者提供了理解大模型资源消耗的重要参考。

详解各种LLM系列｜（3）Mistral-7B 技术内容详解

weixin_49659123的博客

01-10

5257

Mistral - 7B是怎么实现在各项数据集上的表现都超过Llama2 - 13B的

[NLP]LLM--transformer模型的参数量

摩登都市天空---专栏

08-22

3037

最近，OpenAI推出的ChatGPT展现出了卓越的性能，引发了大规模语言模型(Large Language Model, LLM)的研究热潮。大规模语言模型的“大”体现在两个方面：模型参数规模大，训练数据规模大。以GPT3为例，GPT3的参数量为1750亿，训练数据量达到了570GB。进而，训练大规模语言模型面临两个主要挑战：显存效率和计算效率。

序列模型（3）—— LLM的参数量和计算量

佚失的诗篇

01-07

8946

本文说明重要结论：设模型参数量为 N，训练数据量（Token）为 D，LLM训练中计算量（FLOPs）C ≈ 6ND

LLM的一些基础知识：参数和内存估计

RA AI衍生者训练营的博客

08-20

1343

了解 Mistral-7B 等模型的内存需求对于优化其部署和使用至关重要。这些信息对于那些考虑使用云服务进行模型训练和推理的人来说尤其重要，因为它会影响硬件的选择和总体成本。训练时为了保证模型收敛，参数类型不能为int8或者int4，一般使用float，如果性能稍差，也可以选择BF16。一般情况下参数数量是首要因素，例如同架构下13B-int8模型一般会比7B-BF16模型表现更好。虽然其他因素也使用内存，但推理过程中内存使用的主要部分是参数。— 使用 SGD 优化器时，需要与参数数量相当的内存。

如何计算和优化 LLM 部署所需的 GPU 内存 ?

2401_85324918的博客

09-03

1611

那以下这些PDF籍就是非常不错的学习资源。考虑到目前市面上的 GPU，例如 NVIDIA 的 A100，每张卡片通常配备 80 GB 内存，这意味着至少需要两张这样的 GPU 来支持模型的部署。现如今大模型岗位需求越来越大，但是相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，下面是我整理好的一套完整的学习路线，希望能够帮助到你们学习AI大模型。

streamlit data_editor学习之 LLM理论内存占用量计算器

Hi20240217的博客

04-26

971

根据用户设置的LLM参数,计算设备内存的占用量。以web的形式方便共享,可以插入多条记录,表格更新后,可以动态计算结果。

服务大型语言模型 (LLM) 需要多少 GPU 内存？

ms44的专栏

08-28

976

在几乎所有的 LLM 面试中，都会出现一个问题：“服务大型语言模型 (LLM) 需要多少 GPU 内存？这不仅仅是一个随机问题——它是衡量您对这些强大模型在生产中的部署和可扩展性的理解程度的关键指标。在使用 GPT、LLaMA 或任何其他 LLM 等模型时，了解如何估算所需的 GPU 内存至关重要。无论您处理的是 7B 参数模型还是更大的模型，正确调整硬件大小以服务这些模型都至关重要。让我们深入研究数学知识，以帮助您估算有效部署这些模型所需的 GPU 内存。

LLM-2022：BLOOM【参数量：1760亿（176B）】【用于训练的token数量：341B】

u013250861的博客

02-24

1075

这是来自70多个国家和250多个机构的1000多名研究人员一年工作的成果，最终在法国巴黎南部的Jean Zay超级计算机上训练了117天(3月11日至7月6日)的BLOOM模型，这要归功于法国国家科学研究中心(CNRS)和法国科学研究中心(CNRS)估计价值300万欧元的计算拨款。今天，我们发布了BLOOM，第一个在完全透明的情况下训练的多语言LLM，以改变这一现状——这是有史以来最大的人工智能研究人员合作的结果。但是，最重要的是，所有这些人工智能模型都源于私营科技公司的巨大资源，这是共同的因素。

LLM-20230225：LLaMA（大羊驼）【参数量： 70 亿、130 亿、330 亿、650 亿】【旨在推动 LLM 领域的小型化、平民化研究】【Meta】

u013250861的博客

03-09

2062

北京时间 2023 年 2 月 25 日 Meta AI 在其官网公开发布了 LLaMA（Large Language Model Meta AI）大型语言模型，包括 70 亿、130 亿、330 亿、650 亿 4 种参数规模，旨在推动 LLM 领域的小型化、平民化研究。

大型语言模型（LLM）参数量计算指南

chen的博客

05-24

2239

了解LLM的参数量对于评估模型的计算需求和可能的性能至关重要。随着模型规模的增长，合理设计和优化模型参数是实现高效深度学习的关键。

LLM可训练参数是如何计算的？

weixin_48222697的博客

06-22

933

大语言模型参数计算逻辑解析摘要：本文解析了大语言模型（LLM）参数量的计算原理。主流LLM基于Transformer解码器结构，参数主要来自词嵌入、位置编码、注意力机制、前馈网络和层归一化等模块。计算公式表明，参数量与层数(L)、隐藏维度(d)的平方成正比，其中注意力机制和前馈网络占主要部分。以GPT-2为例演示了详细计算方法，并对比了BERT、GPT-3等模型的参数配置。文章还指出，现代LLM通过移除偏置项、共享嵌入等优化手段提升效率，并强调未来模型发展将更注重在更少参数下实现更强能力。

[NLP]LLM 训练时GPU显存耗用量估计

热门推荐

摩登都市天空---专栏

08-12

2万+

32位存储的意思就是1个参数用32个bit来存储。那么这个拥有1M参数量的模型所需要的存储空间的大小即为：1M * 32 bit = 32Mb = 1M * 4Byte = 4MB。现在的quantization技术就是减少参数量所占的位数：比如我用16位存储，那么：所需要的存储空间的大小即为：1M * 16 bit = 16Mb = 2MB。GPT-2含有1.5B个参数，如果用fp16格式，只需要1.5G*2Byte=3GB显存, 但是模型状态实际上需要耗费1.5B*16=24GB.

2024-05-22 问AI: 介绍一下大语言模型LLM的常用参数

baidu_24377669的博客

05-22

2131

而一些轻量级的模型，如谷歌的PaLM和DeepMind的Chinchilla，虽然参数数量较GPT-3少，但通过优化模型结构和训练方法，它们在某些任务上也能达到类似的性能。例如，OpenAI的GPT-3模型在2020年发布时，其参数量达到了惊人的1750亿，而在之后的模型中，如GPT-4，其参数量可能进一步增加。然而，更多的参数也意味着更高的计算成本和训练难度。总结来说，大语言模型的常用参数规模随着技术进步而不断增加，目前已经有多种规模的模型被开发和应用，不同的参数规模对应着不同的性能和计算资源需求。

大模型参数量内存占用计算方法详解：从推理到训练的全面分析

ningyanggege的博客

07-14

4862

28,000,000,000 字节 ÷ 1024 ÷ 1024 ÷ 1024 ≈ 26.1 GB。52000000000 字节 ÷ 1024 ÷ 1024 ÷ 1024 ≈ 48.3 GB。7,000,000,000 x 4 = 28,000,000,000 字节。13000000000 x 4 = 52000000000 字节。通过实验证明上述方法计算是正确的。

LLM （Large language model）的指标参数

juhanishen的博客

02-23

1989

本文详细介绍了LLM指标中Rouge和BLEU指标。Rouge是用来文本摘要和概括的，BLEU是给翻译场景中用的指标

LLM和LLMS的区别

07-20

<think>首先，用户的问题是：“我想理解LLM和LLMS的区别请问LLM和LLMS的区别是什么”。这看起来像是“LLM”和“LLMS”的区别。但根据上下文，“LLM”通常指“Large Language Model”（大型语言模型），而“LLMS”可能是个打字错误或误解，因为常见术语是“sLLM”或“SLM”，指“Small Language Model”（小型语言模型）。在提供的引用中，有提到“LLM和 sLLM”，所以用户可能指的是“LLM”和“sLLM”。回顾引用： - 引用[3]: “LLM 和 sLLM 之间的深层区别。LLM和 sLLM之间的选择取决于预期应用的具体要求和限制。” - 引用[3]也提到：“大型语言模型 (LLM)和高级大型语言模型 (LLM)”，但这里可能是笔误，应该是“sLLM”作为小型语言模型。所以，我假设用户想问的是“LLM”（大型语言模型）和“sLLM”（小型语言模型）的区别，而不是“LLMS”。用户输入是“LLMS”，这可能是个错误，应该是“sLLM”。在回答中，我应该澄清这一点。现在，系统级指令： - 所有行内数学表达式必须使用$...$格式。 - 独立公式使用$$...$$格式。 - LaTeX语法正确。 - 使用中文回答。 - 生成相关问题。 - 在回答中引用的段落末尾自然地添加引用标识，例如[^1]。 - 回答结构清晰，帮助用户逐步解决问题。 - 参考站内引用：用户提供了引用[1]到[4]，我需要基于这些来回答。用户引用： - [^1]：关于LLMs的优势（上下文理解、生成能力、泛化能力）。 - [^2]：关于开源LLMs的介绍。 - [^3]：关于LLM和sLLM的区别。 - [^4]：关于LLM增强方法。核心问题：理解“LLM”和“LLMS”的区别。我假设是“LLM”和“sLLM”。步骤： 1. **澄清术语**：解释LLM是大型语言模型，sLLM是小型语言模型。 2. **引用来源**：主要基于引用[3]，因为它直接提到区别。 3. **结构回答**： - 先定义LLM和sLLM。 - 然后列出主要区别。 - 添加引用标识。 4. **生成相关问题**：在末尾添加相关问题。 5. **格式**：使用中文；行内数学表达式如无数学内容可能不需要，但如果有，用$...$；独立公式可能不需要；确保LaTeX正确。回答结构： - 引言：确认问题并澄清术语。 - 解释区别：基于引用[3]。 - 总结。 - 添加相关问题。内容基于引用[3]： - LLM：大型语言模型，需要大量计算资源，提供强大的语言处理能力。 - sLLM：小型语言模型，资源高效，适用于资源受限的场景。 - 区别：资源需求、性能、应用场景。完整回答： - LLM：参数多，训练数据大，能力强，但成本高。 - sLLM：参数少，轻量级，部署容易，但能力可能较弱。 - 引用[^3]。生成相关问题： - 类似示例：§§相关问题§§ - 例如：1. 如何选择LLM或sLLM？2. sLLM的优化方法？3. LLM的应用场景？确保回答真实可靠：基于提供的引用。</think>### LLM 和 sLLM 的区别解释首先，用户的问题提到“LLM 和 LLMS 的区别”，但根据常见术语和提供的引用（尤其是引用[3]），“LLMS” 可能是一个打字错误或误解。标准术语中，“LLM” 指“大型语言模型”（Large Language Model），而“LLMS” 可能意指“sLLM”（小型语言模型，Small Language Model）。在自然语言处理领域，sLLM 是 LLM 的资源高效版本，适用于不同场景。下面我将基于引用[3]的核心内容，逐步解释两者的区别，确保回答清晰可靠。 #### 1. **基本定义** - **LLM（大型语言模型）**：指参数规模巨大（通常数十亿或更多）、训练数据量庞大的语言模型。例如，OpenAI 的 GPT 系列或 Meta 的 LLaMA。它们通过海量数据训练，能处理复杂语言任务，但需要高性能硬件（如 GPU 集群）和大量计算资源[^3]。 - **sLLM（小型语言模型）**：指参数规模较小（通常在百万到十亿级别）、资源需求低的语言模型。它们针对特定任务优化，部署轻量级，适合移动设备或边缘计算场景[^3]。用户提到的“LLMS” 很可能就是 sLLM，我将以此为基础解释。 #### 2. **主要区别** 基于引用[3]，LLM 和 sLLM 的核心区别体现在以下几个方面： - **资源需求**： - LLM 需要大量计算资源（如 GPU 内存和电力），训练和推理成本高昂。例如，训练一个千亿参数模型可能消耗数百万美元。 - sLLM 设计为资源高效，参数少、内存占用小，能在普通设备（如手机或嵌入式系统）上运行，降低部署门槛[^3]。 - **性能与能力**： - LLM 提供强大的语言处理能力，包括上下文理解、文本生成和泛化能力（如处理未见过的任务）。引用[1]提到 LLM 的优势包括“生成连贯、有创造性的文本”和“良好的泛化能力”。 - sLLM 能力相对有限，更适合特定、窄领域任务（如简单问答或分类）。它在资源受限时表现更优，但可能牺牲一些复杂任务的准确性[^3]。 - **应用场景**： - LLM 适用于需要高精度和创造性的场景，如内容生成、代码辅助或复杂对话系统（例如 ChatGPT）。 - sLLM 更适合实时、低延迟应用，如移动端聊天机器人、IoT 设备或隐私敏感环境，其中计算资源是关键约束[^3]。 - **发展动态**： - LLM 和 sLLM 是互补的：LLM 推动前沿研究，而 sLLM 促进实际落地。引用[3]强调，“LLM 和 sLLM 之间的选择取决于预期应用的具体要求和限制”，并指出两者并行发展将塑造人工智能的未来。 #### 3. **总结** 简而言之，LLM（大型语言模型）和 sLLM（小型语言模型）的主要区别在于资源需求、性能范围和适用场景。LLM 强大但资源密集，sLLM 轻量但能力受限。选择时需权衡任务复杂度与资源可用性。引用[3]总结道：“随着人工智能技术的不断发展，大型语言模型 (LLM) 和高级大型语言模型 (sLLM) 的并行开发将显著影响基于语言的人工智能应用。” 如果您有更多上下文（如具体模型名称），我可以进一步细化解释。