一、概念
随着学界和业界对大模型的训练越来越深入,行内逐渐总结出了一套颇有信服力的理论,并称之为大模型的Scaling Law(缩放定律,也有翻译为尺度定律)。这个大模型领域的Scaling Law描述了模型的性能如何随着模型规模(如参数数量)、训练数据量、计算资源的增加而变化。当然,最初这个法则有个重要的前提——模型应当是基于Transformer架构的。这个概念来自OpenAI在2020年发表的论文《Scaling Laws for Neural Language Models》,最近似乎这个定律又火了,各路大神不是在证明它依然有效,就是在验证它是否失效。

二、Scaling Law要点解析
1、模型性能与规模强相关
Scaling Law表明,模型性能主要取决于模型参数数量(N)、数据集大小(D)和训练计算量(C),在合理范围内,对其他架构超参数(如深度与宽度)的依赖较弱。也就是说即便模型的结构差异很大,但只要参数量相当,其所表现出来的性能也相当。
2、幂律关系
当模型性能受单个因素(参数数量、数据集大小或计算量)限制时,则与该因素呈幂律关系。例如当模型在足够大的数据集上训练至收敛时,测试损失L(N)与非embedding参数数量N呈幂律关系,表达式为:
其中,近似于0.076,
近似于8.8e+13。这意味着随着模型参数量的增加,测试损失会逐渐减小,但是减小的速率会逐渐变得平缓,呈现出典型的幂律特征。而模型性能与数据及大小、计算量的关系同样是幂律,用公式分别可以表示为
和
。
3、边际效益递减
随着模型规模的增大,每增加相同数量的参数或计算资源,获得的性能提升逐渐减少。这是Scaling Law中非常关键的一个方面,它对于理解和决策模型设计及其部署策略有着重要的指导意义。同样地,当模型参数固定的时候,训练数据不断增大所能获得的收益也具有边际性,会在某个量级水平之后趋于稳定,再此之上继续增大数据量已经不能获得什么收益了。
4、样本效率
论文实验表明,大模型比小模型更具备样本效率,即达到相同性能所需的优化步骤和数据点更少。在固定的计算预算前提下,计算资源应当主要用于增加模型的大小、数据量和batch size大小。
三、总结
时至今日,还有许多研究在探索和验证大模型的Scaling Law。例如在图像生成和视频生成等多模态模型领域,研究者证明了Scaling Law仍然适用,即随着模型大小的增加,训练损失降低,生成性能提高,捕捉全局信息的能力增强,当然也有研究发现Scaling Law在某些场景并不具备指导性了。事实上,Scaling Law并不是一成不变的铁律,而是一种方向性的参考,即在我们建模和优化模型的过程中,Scaling Law为我们提供了一批可行的决策方向,这才是它最可贵之处。

4145

被折叠的 条评论
为什么被折叠?



