Predictive Data Selection: The Data That Predicts Is the Data That Teaches

摘要

语言模型预训练需要在海量语料库上进行训练,数据质量在其中起着关键作用。在这项工作中,我们旨在直接评估数据在预训练过程中的贡献,并高效地选择预训练数据。具体来说,我们从最近的研究中获得启发,当文本领域与下游基准测试对齐时,不同模型在特定文本上的压缩效率(即归一化损失)与它们的下游性能密切相关(Huang等人,2024)。基于这一观察,我们假设那些模型损失能够预测下游能力的数据,也能有效地促进模型学习。为了利用这一见解,我们提出了预测性数据选择方法(PRESELECT),这是一种轻量级且高效的数据选择方法,仅需训练和部署一个基于fastText的评分器。通过对1B和3B参数模型的全面实验,我们发现使用PRESELECT选择的30B tokens训练的模型性能超过了使用300B tokens的随机基线模型,计算需求降低了10倍。此外,在3B模型使用100B tokens的情况下,PRESELECT显著优于其他竞争基线,如DCLM和FineWebEdu。我们开源了训练好的数据选择评分器以及精选的数据集,地址为https://github.com/hkust-nlp/PreSelect

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值