大模型微调训练从理论到实践（二）大模型训练耗时估计、常见显卡算力峰值、训练模型参数量与训练数据量的关系....

最新推荐文章于 2025-05-16 17:24:03 发布

原创最新推荐文章于 2025-05-16 17:24:03 发布 · 3.6k 阅读

42 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大模型 #AI大模型 #LLM #AI #大模型训练 #大模型微调

五、大模型训练耗时估计

知道了理论计算量，我们就可以估算训练时间了。但是，实际训练时间不仅取决于理论计算量，还与硬件性能和利用率有关。让我们来看看如何进行粗略的估计：

首先，我们需要考虑激活重计算技术。使用这种技术，对于每个token，每个模型参数，我们需要进行：

1次前向传递
2次后向传递
1次额外的前向传递（用于重计算）

重计算方法：正向传播中间状态占的内存太多了，可以用算力换内存，就是不存储那么多梯度和每一层的正向传播的中间状态，而是在计算到某一层的时候再临时从头开始重算正向传播的中间状态，这样这层的正向传播中间状态就不用保存了，论文：《Reducing Activation Recomputation in Large Transformer Models》

所以，总共是1 + 2 + 1 = 4次基本操作，每次操作包含2次浮点运算。因此，最终的计算量是：

实际FLOPs = 8 * tokens数 * 模型参数量

有了这个，我们就可以估算训练时间了：

训练时间 = (8 * tokens数 * 模型参数量) / (GPU数量 * 每个GPU的峰值FLOPS * GPU利用率)

这里的GPU利用率是个关键因素。一般来说，GPU利用率在0.3到0.55之间。为什么不能达到100%呢？因为在实际训练中，我们还需要考虑：

CPU加载数据的时间
优化器更新参数的时间
多卡之间的通信时间
记录日志的时间

所有这些因素都会降低GPU的有效利用率。

六、常见显卡算力峰值

说到GPU，我们来看看一些常见显卡的算力峰值（以FP16精度为例）：

NVIDIA A100 80GB PCIe：312 TFLOPS
NVIDIA A10 24GB PCIe：125 TFLOPS
NVIDIA A800 80GB PCIe：312 TFLOPS

知道这些数据后，我们就可以更准确地估算训练时间了。比如，假设我们用8张A100卡来训练，GPU利用率为0.5，那么有效算力就是：

8 * 312 * 0.5 = 1248 TFLOPS

七、训练模型参数量与训练数据量的关系

在规划训练时，我们还需要考虑模型参数量和训练数据量之间的关系。根据研究，我们有以下发现：

OpenAI在2020年的研究"Scaling Laws for Neural Language Models"给出了一些初步的结论。
更进一步，DeepMind在2022年的研究"Training Compute-Optimal Large Language Models"提出了一个简略版的结论：每个参数大约需要20个文本token。

这个结论非常有用。比如，如果你有一个10亿参数的模型，那么理想的训练数据量应该在200亿token左右。

需要注意的是，这个比例并不是固定不变的。随着模型规模的增大，这个比例可能会有所变化。但作为一个初步估计，这个"1:20"的比例是一个很好的起点。

八、epoch的设置

在传统的机器学习中，我们常常会进行多轮（多个epoch）的训练，以便模型能够充分学习数据中的模式。但在大语言模型（LLM）的训练中，情况有些不同。

在这里插入图片描述

首先，让我们回顾一下epoch的定义：一个epoch指的是模型训练过程中完成一次全体训练样本的全部训练迭代。

在LLM时代，很多模型的epoch只有1次或几次。为什么会这样呢？让我们来看看一些研究发现：

数据重复对模型性能的影响：根据研究"To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis"，多轮epoch的训练实际上会降低模型性能。
数据量和模型规模的关系：模型参数规模的增长与模型需要的tokens数量基本上是呈线性关系的。这意味着，随着模型变大，我们需要更多的不重复数据。
数据质量的影响：即使提高数据集的质量，也无法完全挽救重复训练带来的过拟合问题。
模型规模的影响：有趣的是，无论是小规模还是大规模模型，在重复训练时都表现出类似的过拟合趋势。
正则化技术的作用：Dropout是一个在大语言模型训练中常被忽视的正则化技术。虽然它可能会降低训练速度，但能有效减少多epoch训练的负面影响。一个有效的策略是在训练过程中逐渐增加dropout率。

在大模型训练中，我们倾向于使用更大的数据集和更少的epoch，而不是在同一数据集上反复训练。这不仅能提高模型性能，还能节省计算资源。