LLM 参数，显存，Tflops? 训练篇(3)

最新推荐文章于 2025-12-26 21:59:01 发布

原创

最新推荐文章于 2025-12-26 21:59:01 发布 · 1.2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #自然语言处理

本文介绍了如何估算深度学习模型训练所需的算力，特别是针对LLM模型。通过公式推导，阐述了前向计算与反向传播中涉及的浮点运算次数，并以LLama-65B模型为例，计算了其训练所需的时间。讨论了GPU利用率和实际算力的计算，以及训练时间的估算方法。文章结尾预告将探讨静态占用内存和激活占用内存的话题。

上篇文章链接 LLM 参数，显存，Tflops? 训练篇(2) (qq.com)

上上篇文章链接 LLM 参数，显存，Tflops? 训练篇(1) (qq.com)

书接前文

上节课我们推导出来了算力的公式，主要是前向计算损失函数的

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

周博洋K

关注关注

26
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LLM - 大模型的参数量/计算量/激活值/KV Cache 的详细分析教程

AGI

03-31

924

在大模型中，参数量、计算量、激活值以及 KV Cache 是影响模型性能和资源消耗的关键因素。参数量通常与模型的复杂度成正比。计算量则与模型的前向和反向传播过程密切相关，Transformer 模型的计算量在使用 KV Cache 后会显著减少，因为 KV Cache 可以避免重复计算已经处理过的序列。激活值的显存占用在推理阶段尤为重要，其大小取决于序列长度、批次大小、隐藏层维度等因素，通常会随着批次大小的增加而显著增长。

计算gpu的TFlops

小夭的博客

10-18

1155

在这个例子中，SM (Streaming Multiprocessor) 的频率是1500 MHz，这就是我们用来计算TFlops的核心频率。

参与评论您还未登录，请先登录后发表或查看评论

LLM 参数，显存，Tflops? 训练篇(5）

周博洋的博客

03-02

1170

2-对于QK的矩阵乘和Softmax的计算，需要保留Q和K两个矩阵，都是[B,S,H],所以两个加起来是4BSH bytes的内存占用，Softmax又要保留Q*K的转置，考虑到多头的因素，这块需要2BaS^2的内存占用（这块和前面计算Tflops逻辑类似）5-在Attetion操作的最后，1要保存Wo的输出映射，这一部分和之前的矩阵一样都是2BSH，同时还会做一次dropout的动作，这里的dropoutmask矩阵和Wo相同也为BSH，所以这一步需要占用3BSH bytes的显存。

LLM 参数，显存，Tflops? 训练篇(4）

周博洋的博客

03-01

1553

拿我刚才举的那个抬杠的例子，7B的话，你的静态显存占用量，指模型的所有参数被load到显存里，如果以BF16的话，要占据14个G，这一下子想用T4来训练7B的人基本就傻了，我都不跟你谈什么70B，70B要是BF16，静态显存占用就是140G，那现在业界要能装的下的只有AMD 的MI300X（192G）和H200了，这两玩意貌似几乎都没供货.....当然不是，我load 模型参数的核心目的是训练参数的权重，这里就涉及到了第二个也是比较麻烦的概念，训练时的Activation显存占用（下节课讲）

LLM 参数，显存，Tflops? 训练篇(1)

周博洋的博客

02-16

2010

算力计算是[B,h,S,H']*[H,H],因为h*H'=H，所以化简为[B,S,H]*[H,H], 即BSH^2,形状为[B,S,H](这把就完成了进来啥形状，出来啥形状了)运算量等于[B,h,S,H’]*[B,h,H',S], 运算量为BHS^2(H'和h最后还是合成H，看上边的代码)，形状为[B,h,S,S]即[B,h,S,S]*[B,h,S,H']，计算量 BhS^2H'即BHS^2，计算后的形状为[B,h,S,H']然后进入到QKV的环节，首先是Q*K的转置，除以K的维度开方然后softmax。

LLM 参数，显存，Tflops? 训练篇(2)

周博洋的博客

02-20

779

d_ff就是你想要把H hidden_size(从atteion层出来就这样，过layer Normal，无论是前置的还是后置的，也不会改变d_model的形状还是H)，也就是 d_model升级到的高维空间，一般是d_model的4倍。当然我们算完了FFN层，别忘了，我们是一个NLG业务，我们要生成token的，所以要算过个softmax层，求词典里，哪些词的概率更高就是我们要生成的token，所以这块的算力，我们也来求一下。

AI大模型训练相关参数如何估算？有这一篇就够了

python1234567_的博客

10-31

4903

随着大模型时代的到来，模型参数量、训练数据量、计算量等各方面急剧增长。参数规模方面，在过去的几年里，语言模型的参数规模从数亿增长到数千亿，甚至达到万亿级别。例如OpenAI的GPT-3拥有175B参数，而GPT MoE参数规模到达了1.8T；数据量方面，训练一个大模型通常需要达到T级别tokens；另外，由于参数规模和数据量庞大，随之带来的是巨大的计算量。

【LLM学习笔记】第二篇：分布式训练介绍

使者大牙ℂypher的博客

11-04

1077

分布式训练介绍

PyTorch-CUDA镜像助力LLM训练提速300%

weixin_31163455的博客

11-24

592

本文介绍如何通过PyTorch-CUDA官方镜像实现LLM训练的高效加速。该镜像预集成CUDA、cuDNN、NCCL等核心组件，消除环境不一致问题，支持混合精度、多卡分布式训练，显著提升GPU利用率和训练速度，是AI工程化的关键实践。

【AI学习-comfyUI学习-第二十三-法线贴图工作流-depth 结构+MiDaS 法线-各个部分学习】

qq_22146161的博客

12-25

869

最近，学习comfyUI，这也是AI的一部分，想将相关学习到的东西尽可能记录下来。不断学习摸索中。

做了一块可以调用百度云语音识别api和tts api的esp32 s3开发板，支持跑ai小智机器人的源码，基于idf5.5.1库编译，分享下

net3m33的专栏

12-25

395

做了一块可以调用百度云语音识别api和语音合成tts接口的esp32 s3开发板，支持跑ai小智机器人的源码，基于idf5.5.1库编译，分享

第N11周：seq2seq翻译实战-Pytorch复现

最新发布

m0_46260522的博客

12-26

265

5.2 注意力解码器（AttnDecoderRNN）7.2 训练迭代主循环。

Q-learning 算法 —— 无模型（model-free）强化学习

一杯水果茶！足矣~

12-25

953

从已知模型到 Model-free 的强化学习转变：Q-Learning 算法，通过详细示例来讲解，理解 Q-table 的更新和贪婪策略

2025国自然资助率12.29%创新低！2026年如何用数据与AI“破局”？

imbackneverdie的博客

12-25

709

这绝非简单的文字堆砌，它内在嵌入了对国自然申报规范的理解，能有效帮你规避常见的“方向偏离”“逻辑混乱”“格式错误”等基础问题，将你从繁琐的框架搭建中解放出来，专注于核心内容的精雕细琢。国自然2025年的资助率降至历史新低的12.29%，数万科研人员面对着更激烈的竞争与更严格的评审标准，对于2026年度的申报者而言，“高效准备，少走弯路”已不是口号，而是生存法则。它不仅告诉你“是什么”，更分析“为什么”和“怎么办”，直接为你的选题方向和立项论证提供坚实的数据支撑。模块，堪称科研人员的“选题外脑”。

企业级 RAG 问答系统开发上线流程分析

hello！

12-22

1415

这个项目流程是一个非常典型的。

打造个人数字大脑：访答知识库深度指南

acbd1994的博客

12-23

792

本地私有知识库是指将个人或组织的知识资料存储在本地设备上，而非云端服务器。这种模式最大的优势在于数据完全由用户掌控，无需担心隐私泄露风险。与传统的云存储知识库相比，本地解决方案在数据安全性和访问速度上具有明显优势。

如果计算agv舵轮角度是否超限，当给定vx vy w时

君君的博客

12-25

397

agv 舵轮运动控制运动学模型

weixin_71667732的博客

12-26

833

本文介绍了一个基于深度学习的工程车辆智能监控系统，采用YOLOv8/YOLOv5/YOLO11算法，并集成SE注意力机制提升检测精度。系统支持图片、视频、摄像头输入的实时检测，具备UI界面，可直观展示检测结果并导出xls格式数据。功能包括单张图片识别、文件夹批量识别、视频逐帧检测、摄像头实时监控以及结果查看与导出。该系统可有效识别多种工程车辆类型，为施工安全提供智能化解决方案。文章提供了完整Python代码和使用指南，方便读者学习和应用。

单细胞拟时序分析：揭示细胞动态发育的基因调控网络

2501_94211109的博客

12-24

963

单细胞拟时序分析是一种前沿计算生物学技术，通过重构单细胞转录组数据的连续动态轨迹，揭示细胞分化、发育等过程的基因调控网络。该技术面临数据稀疏性、高维处理、分支识别等技术挑战，核心算法包括最小生成树、概率图模型和深度学习方法。在发育生物学、疾病机制和再生医学等领域具有重要应用价值。未来发展方向包括多模态数据整合、动态模型构建和空间信息融合，为深入理解细胞动态发育提供新视角。

如何训练DeepSeek-LLM

03-08

3. **训练策略**：可能使用了课程学习（Curriculum Learning）、逐步增加序列长度、混合精度训练以及ZeRO优化来节省显存。此外，可能采用了特定的学习率调度和优化器设置（如AdamW）。 4. **分布式训练**：考虑到...

​LLM 参数，显存，Tflops? 训练篇(3)

LLM 参数，显存，Tflops? 训练篇(3)