本文是LLM系列文章,针对《Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearning》的翻译。
通过机器遗忘破解预训练数据对大型语言模型的影响
摘要
通过在具有各种来源的语料库上进行预训练,大型语言模型(LLM)获得了令人印象深刻的性能。然而,预训练语料库的每个组成部分的影响仍然是不透明的。因此,预训练语料库的组织仍然是经验的,可能会偏离最佳状态。为了解决这个问题,我们系统地分析了LLM的5个主要类别的预训练数据的48个数据集的影响,并使用关于9个主要类别模型能力的基准来衡量它们对LLM的影响。我们的分析提供了关于多个语料库对LLM性能的贡献的经验结果,以及它们的联合影响模式,包括互补、正交和相关关系。我们还确定了一组“高影响数据”,如与一组模型功能显著相关的书籍。这些发现为数据的组织提供了见解,以支持更有效的LLM预训练。
1 引言
2 方法论与有效性分析
3 主要分析
4 关于优化预训练语料库和训练过程的提示
5 相关工作
6 结论
在这项研究中,我们采用了一种基于机器学习的数据影响分析方法GRACE来研究不同类型的预训练数据对大型LLM性能的复杂影响。我们获得了关于预训练语料库的特定组成部分如何影响LLM能力,以及它们如何共同促进LLM的多种能力
本文通过机器无学习方法系统分析了预训练数据对大型语言模型(LLM)性能的影响,揭示了预训练语料库各部分对LLM能力的贡献,识别出高影响力数据,并探讨了数据的互补、正交和相关性。研究为LLM的预训练数据优化提供了指导。
已下架不支持订阅
1695

被折叠的 条评论
为什么被折叠?



