DATAMAN: DATA MANAGER FOR PRE-TRAINING LARGE LANGUAGE MODELS

本文是LLM系列文章,针对《DATAMAN: DATA MANAGER FOR PRE-TRAINING LARGE LANGUAGE MODELS》的翻译。

DATAMAN:用于预训练大型语言模型的数据管理器

摘要

由数据缩放规律驱动的大型语言模型(LLM)的性能出现使得预训练数据的选择变得越来越重要。然而,现有的方法依赖于有限的启发式和人类直觉,缺乏全面明确的指导方针。为了解决这个问题,我们受到了“逆向思维”的启发,促使LLM自我识别哪些标准有利于其表现。由于其预训练能力与困惑度(PPL)有关,我们从文本困惑度异常的原因中推导出了14个质量标准,并引入了15个常见的应用领域来支持领域混合。在本文中,我们训练了一个数据管理器(DataMan),从逐点评级中学习质量评级和领域识别,并使用它来注释一个447Btoken预训练语料库,其中包含14个质量评级和域类型。我们的实验验证了我们的方法,使用DataMan选择30Btoken来训练1.3B参数的语言模型,与最先进的基线相比,在上下文学习(ICL)、困惑度和指令遵循能力方面有了显著提高。基于总分l=5的最佳表现模型超过了使用均匀采样的数据多50%训练的模型。我们继续使用DataMan注释的高评级、特定领域的数据进行预训练,以提高特定领域的ICL性能,从而验证DataMan的领域混合能力。我们的研究结果强调了质量排名的重要性、质量标准

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值