从零开始训练 LLM 需要多长时间？

原创于 2025-12-21 00:47:56 发布 · 473 阅读

4 ·

CC 4.0 BY-SA版权

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

文章标签：

#榛樿鍒嗙被

榛樿鍒嗙被专栏收录该内容

1088 篇文章

订阅专栏

原文：towardsdatascience.com/how-long-does-it-take-to-train-the-llm-from-scratch-a1adb194c624?source=collection_archive---------1-----------------------#2024-10-28

估算训练 X 亿个 LLM、Y 万亿个 tokens 以及 Z 个 GPU 计算所需时间的指南

https://medium.com/@maxshapp?source=post_page---byline--a1adb194c624--------------------------------https://towardsdatascience.com/?source=post_page---byline--a1adb194c624-------------------------------- Max Shap

·发表于Towards Data Science ·阅读时间：5 分钟·2024 年 10 月 28 日

–

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/22c36c4b0f024261ae215cb9306bbb76.png

图片由作者提供

简介

每个从事 LLM 训练的机器学习工程师都曾面临过来自经理或产品负责人提出的问题：“训练这个 LLM 需要多长时间？”

当我第一次尝试在网上找到答案时，我遇到了许多涵盖通用话题的文章——训练技巧、模型评估等。但没有一篇文章解决了我核心的问题：我该如何估算训练所需的时间？

因为缺乏明确的实用指导，我决定自己创建一套方法。在这篇文章中，我将带你了解一种简单的估算方法，帮助你快速估算基于 LLM 的训练所需的时间，这个估算基于模型的规模、数据量以及可用的 GPU 算力。

方法

目标是量化训练过程中处理数据和更新模型参数所需的计算要求，以FLOPs（浮点运算次数）表示。接下来，我们基于所选 GPU 的类型和数量，估算系统的吞吐量，以FLOPS（每秒浮点运算次数）表示。一旦所有内容都在相同的尺度上表达，我们就可以轻松计算训练模型所需的时间。

所以最终的公式是相当直接的：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e635eab3d7c67dcee53d0d155a997497.png

让我们深入了解如何估算这些变量。

数据和模型的 FLOPs

基于 Transformer 的 LLM 在正向传播过程中，每个 token 的大致加减乘除运算量约为以下的 FLOPs：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/931583db7f575dfa66cfc1285987af01.png

从论文中估算 Transformer 模型在前向传播时每个 token 的 FLOP 数

其中，乘法累加操作在矩阵乘法中引入了二的因素。

反向传播所需的计算量大约是前向传播的两倍。这是因为在反向传播过程中，我们需要计算每个权重的梯度以及相对于中间激活值的梯度，特别是每一层的激活值。

考虑到这一点，每个训练 token 的浮动点运算量可以估算为：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3817cdce9aa32f0eec695f00f2220eaa.png

从论文中估算 Transformer 模型大小为 N 在前向和反向传播时每个 token 的 FLOP 数

计算这些估算值的更详细数学推导可以在作者的论文中找到，链接见这里。

总结一下，训练大小为 N 的 Transformer 模型和包含 P 个 token 的数据集的 FLOPS 可以估算为：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/b356d4df53ad88326a799b8553b0852c.png

训练基础设施的 FLOPS

今天，大多数大型语言模型（LLM）都是使用 GPU 加速器进行训练的。每种 GPU 模型（如 Nvidia 的 H100、A100 或 V100）都有其自己的 FLOPS 性能，具体取决于所使用的数据类型（形态）。例如，使用 FP64 进行的运算比使用 FP32 的运算要慢，依此类推。特定 GPU 的峰值理论 FLOPS 通常可以在其产品规格页面上找到（例如，这里是 H100 的页面）。

然而，对于 GPU 的理论最大 FLOPS，通常在训练大型语言模型时并不那么相关。这是因为这些模型通常在成千上万的互联 GPU 上进行训练，其中网络通信效率变得至关重要。如果设备之间的通信成为瓶颈，它可能会大幅降低整体速度，使得系统的实际 FLOPS 远低于预期。

为了解决这个问题，重要的是跟踪一个叫做模型 FLOPS 利用率（MFU）的指标——即观察到的吞吐量与理论最大吞吐量的比率，假设硬件在没有内存或通信开销的情况下以峰值效率运行。在实践中，随着参与训练的 GPU 数量增加，MFU 通常会下降。使用当前的设置，要实现超过 50% 的 MFU 是具有挑战性的。

例如，LLaMA 3 论文的作者报告称，在使用 16,000 个 GPU 进行训练时，MFU 为 38%，即每个 GPU 的吞吐量为 380 太 FLOPS。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2eb3da3d53dfffa58532e6b705f75264.png

在论文中报告了不同配置下每个 GPU 训练 Llama3 模型时的 TFLOPs 吞吐量。

总结一下，当进行模型训练的简易计算时，遵循以下步骤：