本文是LLM系列文章,针对《SMALLTOLARGE (S2L): Scalable Data Selection for Fine-tuning Large Language Models by Summarizing Training Trajectories of Small Models》的翻译。
摘要
尽管在预训练和指令微调阶段,大型语言模型(LLM)的数据选择是有效的,但由于微调数据的复杂性,在专业领域的监督微调(SFT)中提高数据效率带来了重大挑战。为了弥补这一差距,我们为SFT引入了一种有效且可扩展的数据选择方法SMALLTOLARGE(S2L),该方法利用小模型的训练轨迹来指导大模型的数据选择。我们通过大量实验证明,S2L显著提高了SFT中用于数学问题解决的数据效率,将训练数据减少到原始MathInstruction数据集的11%,以匹配完整的数据集性能,同时在6个域内和域外评估数据集中平均比最先进的数据选择算法高4.7%。值得注意的是,仅选择50K数据进行SFT,S2L在具有挑战性的MATH基准上实现了32.7%的准确率,将Phi-2提高了16.6%。在MIMIC-III数据集的临床文本摘要中,S2L再次优于仅使用50%数据的完整数据集上的训练。值得注意的是,S2L可以使用比目标模型小40倍的参考模型来执行数据选择,从而成比例地降低了数据选择的成