什么是大模型的Scaling Raw?

一、概念

        随着学界和业界对大模型的训练越来越深入,行内逐渐总结出了一套颇有信服力的理论,并称之为大模型的Scaling Law(缩放定律,也有翻译为尺度定律)。这个大模型领域的Scaling Law描述了模型的性能如何随着模型规模(如参数数量)、训练数据量、计算资源的增加而变化。当然,最初这个法则有个重要的前提——模型应当是基于Transformer架构的。这个概念来自OpenAI在2020年发表的论文《Scaling Laws for Neural Language Models》,最近似乎这个定律又火了,各路大神不是在证明它依然有效,就是在验证它是否失效。

3538ce7cdd57495fae3e2e09a9e4bcb7.png

二、Scaling Law要点解析

1、模型性能与规模强相关

        Scaling Law表明,模型性能主要取决于模型参数数量(N)、数据集大小(D)和训练计算量(C),在合理范围内,对其他架构超参数(如深度与宽度)的依赖较弱。也就是说即便模型的结构差异很大,但只要参数量相当,其所表现出来的性能也相当。

2、幂律关系

        当模型性能受单个因素(参数数量、数据集大小或计算量)限制时,则与该因素呈幂律关系。例如当模型在足够大的数据集上训练至收敛时,测试损失L(N)与非embedding参数数量N呈幂律关系,表达式为:

N%29%5E%7B%5Calpha_%7BN%7D%7D

        其中,eq?%5Calpha_%7BN%7D近似于0.076,eq?N_%7Bc%7D近似于8.8e+13。这意味着随着模型参数量的增加,测试损失会逐渐减小,但是减小的速率会逐渐变得平缓,呈现出典型的幂律特征。而模型性能与数据及大小、计算量的关系同样是幂律,用公式分别可以表示为D%29%5E%7B%5Calpha_%7BD%7D%7DC_%7Bmin%7D%29%5E%7B%5Calpha_%7BC%7D%5E%7Bmin%7D%7D

3、边际效益递减

        随着模型规模的增大,每增加相同数量的参数或计算资源,获得的性能提升逐渐减少。这是Scaling Law中非常关键的一个方面,它对于理解和决策模型设计及其部署策略有着重要的指导意义。同样地,当模型参数固定的时候,训练数据不断增大所能获得的收益也具有边际性,会在某个量级水平之后趋于稳定,再此之上继续增大数据量已经不能获得什么收益了。

4、样本效率

        论文实验表明,大模型比小模型更具备样本效率,即达到相同性能所需的优化步骤和数据点更少。在固定的计算预算前提下,计算资源应当主要用于增加模型的大小、数据量和batch size大小。

三、总结

        时至今日,还有许多研究在探索和验证大模型的Scaling Law。例如在图像生成和视频生成等多模态模型领域,研究者证明了Scaling Law仍然适用,即随着模型大小的增加,训练损失降低,生成性能提高,捕捉全局信息的能力增强,当然也有研究发现Scaling Law在某些场景并不具备指导性了。事实上,Scaling Law并不是一成不变的铁律,而是一种方向性的参考,即在我们建模和优化模型的过程中,Scaling Law为我们提供了一批可行的决策方向,这才是它最可贵之处。

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值