扩展数据受限语言模型
Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus, Nouamane Tazi, Sampo Pyysalo, Thomas Wolf, Colin Raffel; 26(53):1−66, 2025.
摘要
当前扩展语言模型的趋势涉及增加参数数量和训练数据集规模。这一趋势的外推表明,训练数据集规模可能很快受到互联网上可用文本数据量的限制。受此限制的启发,研究在数据受限的情况下扩展语言模型。具体而言,进行了大量实验,改变数据重复的程度和计算预算,范围高达9000亿训练标记和90亿参数模型。研究发现,在固定计算预算下使用受限数据时,与使用唯一数据相比,使用多达4个周期的重复数据训练对损失的变化可以忽略不计。然而,随着重复次数增加,增加计算的价值最终衰减至零。提出并实证验证了一个计算最优化的扩展定律,该定律考虑了重复标记和多余参数的递减价值。最后,实验了缓解数据稀缺的方法,包括用代码数据增强训练数据集或移除常用过滤器。来自400次训练运行的模型和数据集可在 https://github.com/huggingface/datablations 免费获取。
[abs][pdf][bib]
[code]
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

1440

被折叠的 条评论
为什么被折叠?



