15、大模型训练与微调：从优化时间到提升性能-优快云博客

本文链接：https://blog.youkuaiyun.com/j2k3l4/article/details/151095880

大模型训练与微调：从优化时间到提升性能

1. 优化训练时间

在训练大型视觉和语言模型时，时间是一个有趣的概念。它既可以被视为一个超参数（如训练轮数），也可以看作训练数据的一个方面（如总令牌数或图像数），还可以是项目的固定输入（即总计算预算）。大多数研究团队会凭直觉和经验综合考虑这些因素。

1.1 价格性能比

使用AWS的新实例时，价格性能比通常会比以前更好。价格性能比的计算方法是：考虑每个需要完成的任务（对于Inferentia是完成的模型推理请求，对于Trainium是训练循环的步数），然后考虑完成每个任务的成本，这样就得到了比率。例如，Trn1实例相比可比的GPU实例可节省高达50%的训练成本，Amazon Search使用Inferentia将推理成本降低了85%。

1.2 利用缩放定律求解最佳训练时间

早期提出的缩放定律可用于预测模型性能。原作者Kaplan等人认为，在给定计算预算下，应在“远未收敛”时停止训练，因为大型语言模型比小型模型更“样本高效”。然而，2022年情况发生了变化。Hoffman等人提出训练数据和模型大小应线性增加，即如果模型大小翻倍，训练数据大小也应翻倍。这一预测得到了大量实证证据的验证，涉及400多个模型、150个下游任务和6个领域。

在考虑FLOPS值时，需要思考以下几个问题：
1. 该模型预计为组织带来什么价值？
2. 基于此，可规划的总计算预算是多少？
3. 训练数据有多大？
4. 基于此，应使用多大规模的模型？
5. 训练循环和分布式系统的效率如何？即每个GPU能达到多少TFLOPS？
6. 能从云提供商处获得多少