一、文章主要内容
本文聚焦“数据受限但计算资源无限”的语言模型预训练场景(因预训练计算量年增长4倍,而网络文本数据年增长仅1.03倍),核心研究如何在固定数据下通过优化算法实现高效预训练,具体内容如下:
- 基准方案的局限性:传统数据受限预训练方案(增加训练轮次、扩大模型参数)会因过拟合导致性能上限,例如过多轮次或过大参数会使验证损失回升,即使投入更多计算资源也无法突破瓶颈。
- 正则化参数缩放方案:通过联合优化权重衰减、学习率和训练轮次,发现超参数化模型的最优权重衰减是标准实践(0.1)的30倍。优化后模型损失随参数数量增加呈幂律单调下降(如200M tokens数据下,损失公式为L^200M,N=0.05N1.02+3.43\hat{L}_{200M,N}=\frac{0.05}{N^{1.02}}+3.43

订阅专栏 解锁全文
773

被折叠的 条评论
为什么被折叠?



