Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance 数据混合定律:通过预测优化数据混合语言建模性能
https://arxiv.org/pdf/2403.16952

研究的核心在于探索大型语言模型(LLMs)预训练数据的混合比例对模型性能的影响,并提出了一种定量预测模型性能的方法,称之为“数据混合定律”。
我们发现,对于包含M个领域的数据混合,模型性能可以用一个基于比例线性组合的指数函数来描述,即:
研究背景:
大型语言模型的预训练数据通常包含多个领域(如网络文本、学术论文、代码等),这些数据的混合比例对模型的最终性能有着重要影响。现有实践通常依赖于启发式或定性策略来调整混合比例,但缺乏对理想数据混合比例的明确指导。
订阅专栏 解锁全文
723






