数据受限语言模型的扩展研究

最新推荐文章于 2025-12-18 14:23:27 发布

原创最新推荐文章于 2025-12-18 14:23:27 发布 · 300 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理 #数据扩展 #计算优化 #程序那些事 #AIGC

扩展数据受限语言模型

Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus, Nouamane Tazi, Sampo Pyysalo, Thomas Wolf, Colin Raffel; 26(53):1−66, 2025.

摘要

当前扩展语言模型的趋势涉及增加参数数量和训练数据集规模。这一趋势的外推表明，训练数据集规模可能很快受到互联网上可用文本数据量的限制。受此限制的启发，研究在数据受限的情况下扩展语言模型。具体而言，进行了大量实验，改变数据重复的程度和计算预算，范围高达9000亿训练标记和90亿参数模型。研究发现，在固定计算预算下使用受限数据时，与使用唯一数据相比，使用多达4个周期的重复数据训练对损失的变化可以忽略不计。然而，随着重复次数增加，增加计算的价值最终衰减至零。提出并实证验证了一个计算最优化的扩展定律，该定律考虑了重复标记和多余参数的递减价值。最后，实验了缓解数据稀缺的方法，包括用代码数据增强训练数据集或移除常用过滤器。来自400次训练运行的模型和数据集可在 https://github.com/huggingface/datablations 免费获取。

[abs][pdf][bib]
[code]
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传