LLM 参数,显存,Tflops? 训练篇(4)
本文探讨了在深度学习中训练大模型时如何评估所需的显卡数量。通过分析静态显存占用,指出参数以FP16或BF16存储导致的显存需求,并引入模型并行的概念,包括老概念(模型切分到多卡)和新概念(tensor parallel和pipeline parallel)。讨论了模型并行如何帮助解决单卡显存不足的问题,为训练大型语言模型提供可能。
本文探讨了在深度学习中训练大模型时如何评估所需的显卡数量。通过分析静态显存占用,指出参数以FP16或BF16存储导致的显存需求,并引入模型并行的概念,包括老概念(模型切分到多卡)和新概念(tensor parallel和pipeline parallel)。讨论了模型并行如何帮助解决单卡显存不足的问题,为训练大型语言模型提供可能。

被折叠的 条评论
为什么被折叠?