大模型训练与微调:从优化时间到提升性能
1. 优化训练时间
在训练大型视觉和语言模型时,时间是一个有趣的概念。它既可以被视为一个超参数(如训练轮数),也可以看作训练数据的一个方面(如总令牌数或图像数),还可以是项目的固定输入(即总计算预算)。大多数研究团队会凭直觉和经验综合考虑这些因素。
1.1 价格性能比
使用AWS的新实例时,价格性能比通常会比以前更好。价格性能比的计算方法是:考虑每个需要完成的任务(对于Inferentia是完成的模型推理请求,对于Trainium是训练循环的步数),然后考虑完成每个任务的成本,这样就得到了比率。例如,Trn1实例相比可比的GPU实例可节省高达50%的训练成本,Amazon Search使用Inferentia将推理成本降低了85%。
1.2 利用缩放定律求解最佳训练时间
早期提出的缩放定律可用于预测模型性能。原作者Kaplan等人认为,在给定计算预算下,应在“远未收敛”时停止训练,因为大型语言模型比小型模型更“样本高效”。然而,2022年情况发生了变化。Hoffman等人提出训练数据和模型大小应线性增加,即如果模型大小翻倍,训练数据大小也应翻倍。这一预测得到了大量实证证据的验证,涉及400多个模型、150个下游任务和6个领域。
在考虑FLOPS值时,需要思考以下几个问题:
1. 该模型预计为组织带来什么价值?
2. 基于此,可规划的总计算预算是多少?
3. 训练数据有多大?
4. 基于此,应使用多大规模的模型?
5. 训练循环和分布式系统的效率如何?即每个GPU能达到多少TFLOPS?
6. 能从云提供商处获得多少
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



