上篇文章链接 LLM 参数,显存,Tflops? 训练篇(2) (qq.com)
上上篇文章链接 LLM 参数,显存,Tflops? 训练篇(1) (qq.com)
书接前文
上节课我们推导出来了算力的公式,主要是前向计算损失函数的
本文介绍了如何估算深度学习模型训练所需的算力,特别是针对LLM模型。通过公式推导,阐述了前向计算与反向传播中涉及的浮点运算次数,并以LLama-65B模型为例,计算了其训练所需的时间。讨论了GPU利用率和实际算力的计算,以及训练时间的估算方法。文章结尾预告将探讨静态占用内存和激活占用内存的话题。
上篇文章链接 LLM 参数,显存,Tflops? 训练篇(2) (qq.com)
上上篇文章链接 LLM 参数,显存,Tflops? 训练篇(1) (qq.com)
书接前文
上节课我们推导出来了算力的公式,主要是前向计算损失函数的
1077
1415

被折叠的 条评论
为什么被折叠?