论文:Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling
论文地址:https://arxiv.org/pdf/2405.14578
文章转载在:https://baijiahao.baidu.com/s?id=1801080218892118998&wfr=spider&for=pc 侵权删
0. 引言
过去十年间,基于随机梯度下降(SGD)的深度学习模型在许多领域都取得了极大的成功。与此同时各式各样的 SGD 替代品也如雨后春笋般涌现。在这些众多替代品中,Adam 及其变种最受追捧。无论是 SGD,还是 Adam,亦或是其他优化器,最核心的超参数非 Learning rate 莫属
。因此如何调整好 Leanring rate 是炼丹师们从一开始就必学的技能。
从直觉上讲,影响 Learning rate 取值的重要因素是 Batch size
。不知你在学习炼丹术时,是否遇到或者思考过入如下问题:
- 我的 Batch size 增加一倍,Learning rate 该怎么调整?
- 网上有说 Batch size 和 Learning rate 是线性放缩,也有说是平方根放缩,到底该按照哪个调整?
- 为什么我按照网上说的经验关系调整之后效果反而变差了?
1. 主要内容
针对上述问题,腾讯混元联合北京大学基于现有科研基础和实际业务需求,在进行了大量理论分析和实验验证后发布了关于 Batch size 和 Learning rate 放缩关系的调参指南
:
-
当
使用 SGD 风格的优化器
时,应当采用 OpenAI 2018 年给出的结论(https://arxiv.org/pdf/1812.06162):
-
但是当
使用 Adam 风格的优化器
时,需要按照如下放缩规律:
5. 应用
我们在腾讯 Angel 大模型训练框架中集成了上述理论成果,并在腾讯混元大模型训练任务
中对理论进行进一步验证,未来将服务于各种大模型训练场景。
感谢阅读,更多详细内容,请参考原文。