Scalable Data Selection for Fine-tuning Large Language Models by Summarizing Training Trajectories

本文是LLM系列文章,针对《SMALLTOLARGE (S2L): Scalable Data Selection for Fine-tuning Large Language Models by Summarizing Training Trajectories of Small Models》的翻译。

SMALLTOLARGE(S2L):通过总结小模型的训练轨迹来微调大语言模型的可扩展数据选择

摘要

尽管在预训练和指令微调阶段,大型语言模型(LLM)的数据选择是有效的,但由于微调数据的复杂性,在专业领域的监督微调(SFT)中提高数据效率带来了重大挑战。为了弥补这一差距,我们为SFT引入了一种有效且可扩展的数据选择方法SMALLTOLARGE(S2L),该方法利用小模型的训练轨迹来指导大模型的数据选择。我们通过大量实验证明,S2L显著提高了SFT中用于数学问题解决的数据效率,将训练数据减少到原始MathInstruction数据集的11%,以匹配完整的数据集性能,同时在6个域内和域外评估数据集中平均比最先进的数据选择算法高4.7%。值得注意的是,仅选择50K数据进行SFT,S2L在具有挑战性的MATH基准上实现了32.7%的准确率,将Phi-2提高了16.6%。在MIMIC-III数据集的临床文本摘要中,S2L再次优于仅使用50%数据的完整数据集上的训练。值得注意的是,S2L可以使用比目标模型小40倍的参考模型来执行数据选择,从而成比例地降低了数据选择的成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值