Language models scale reliably with over-training and on downstream tasks

本文是LLM系列文章,针对《Language models scale reliably with over-training and on downstream tasks》的翻译。

摘要

缩放定律是昂贵训练运行去风险的有用指南,因为它们使用更便宜的小规模实验来预测大型模型的性能。然而,当前的缩放研究与语言模型的最终训练和评估方式之间仍存在差距。例如,缩放通常在计算最优训练方案(即“钦奇利亚最优”方案)中进行研究。相比之下,模型通常被过度训练以降低推理成本。此外,缩放定律主要预测下一个token预测的损失,但模型通常在下游任务性能上进行比较。为了解决这两个缺点,我们创建了一个由104个模型组成的测试台,这些模型具有0.011B到6.9B的参数,在三个数据分布上用不同数量的token训练。首先,我们拟合了在过度训练量和模型参数数量方面进行外推的缩放定律。这使我们能够预测1.4B参数、900Btoken运行(即32倍过训练)和6.9B参数、138Btoken运行的验证损失(即计算最优运行)——每一个都来自计算量减少300倍的实验。其次,我们通过提出幂律,将语言模型的困惑与其下游任务性能联系起来。我们使用这一定律来预测上述两个模型在下游任务上的前1个平均误差,使用的实验计算量减少了20倍。我们的实验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值