本文是LLM系列文章,针对《Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearning》的翻译。
通过机器遗忘破解预训练数据对大型语言模型的影响
摘要
通过在具有各种来源的语料库上进行预训练,大型语言模型(LLM)获得了令人印象深刻的性能。然而,预训练语料库的每个组成部分的影响仍然是不透明的。因此,预训练语料库的组织仍然是经验的,可能会偏离最佳状态。为了解决这个问题,我们系统地分析了LLM的5个主要类别的预训练数据的48个数据集的影响,并使用关于9个主要类别模型能力的基准来衡量它们对LLM的影响。我们的分析提供了关于多个语料库对LLM性能的贡献的经验结果,以及它们的联合影响模式,包括互补、正交和相关关系。我们还确定了一组“高影响数据”,如与一组模型功能显著相关的书籍。这些发现为数据的组织提供了见解,以支持更有效的LLM预训练。
1 引言
2 方法论与有效性分析
3 主要分析
4 关于优化预训练语料库和训练过程的提示
5 相关工作
6 结论
在这项研究中,我们