大规模模型训练:模型规模求解与加速器使用指南
1. 求解模型规模
在模型训练中,有时不改变模型大小和数据集,通过添加数据并行策略,复制模型并将数据分配到所有加速器(如GPU),可以实现水平扩展,减少整体作业时间。采用分布式策略并在集群中添加额外节点,能有效缩短模型训练时间。
1.1 实际求解方法
- 计算预算 :多数团队会将计算预算视为固定值,这一数值应是项目中向高层申请批准的额度,它是模型精度提升为业务带来的整体价值的一部分。
- 数据集大小 :明确候选数据集的大小,在视觉领域可统计图像数量,语言领域可统计标记数量,以GB为基准更便于理解和跨领域转换。可以参考感兴趣的模型和论文,了解其数据集大小作为基线,范围通常从几十GB到几PB。对于机器学习新手,这是很好的起点;而有经验的人员可借助缩放定律来确定最佳模型大小。
1.2 缩放定律的差异
虽然模型、数据和计算规模之间的一般关系直观易懂,但精确的数学公式可能差异很大。不同的研究对缩放定律有不同偏好,如Kaplan倾向于大模型和较小数据集,Hoffman则建议两者均衡增加。Kaplan最初认为自回归模型或基于解码器的模型样本效率最高,但Alexa项目表明联合编码器和解码器可能更高效。缩放定律虽能建议最佳模型设置,但结果会有所不同。
2. 模型准备与实验规划
确定计算预算和数据约束下的目标模型大小后,将每次作业运行视为一次实验。机器学习过程的每个阶段都是独特的实验,有不变的因变量和可变的自变量。每次只改变一个变量,以便明确实验
超级会员免费看
订阅专栏 解锁全文
1073

被折叠的 条评论
为什么被折叠?



