Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearning

最新推荐文章于 2025-11-24 19:11:26 发布

UnknownBody

最新推荐文章于 2025-11-24 19:11:26 发布

阅读量87

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型深度学习机器学习

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/137710020

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文通过机器无学习方法系统分析了预训练数据对大型语言模型（LLM）性能的影响，揭示了预训练语料库各部分对LLM能力的贡献，识别出高影响力数据，并探讨了数据的互补、正交和相关性。研究为LLM的预训练数据优化提供了指导。

本文是LLM系列文章，针对《Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearning》的翻译。

摘要

通过在具有各种来源的语料库上进行预训练，大型语言模型（LLM）获得了令人印象深刻的性能。然而，预训练语料库的每个组成部分的影响仍然是不透明的。因此，预训练语料库的组织仍然是经验的，可能会偏离最佳状态。为了解决这个问题，我们系统地分析了LLM的5个主要类别的预训练数据的48个数据集的影响，并使用关于9个主要类别模型能力的基准来衡量它们对LLM的影响。我们的分析提供了关于多个语料库对LLM性能的贡献的经验结果，以及它们的联合影响模式，包括互补、正交和相关关系。我们还确定了一组“高影响数据”，如与一组模型功能显著相关的书籍。这些发现为数据的组织提供了见解，以支持更有效的LLM预训练。