Datasets for Large Language Models: A Comprehensive Survey-优快云博客

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136779525

本文深入探讨了大型语言模型（LLM）数据集，包括预训练语料库、指令微调数据集、偏好数据集和评估数据集。调查涵盖了444个数据集，涉及8种语言和32个领域，总计超过774.5 TB的预训练数据和7亿个实例。研究突出了数据集在LLM发展中关键作用，同时指出了当前挑战和未来发展方向，如数据多样性和质量评估。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《Datasets for Large Language Models: A Comprehensive Survey》的翻译。

摘要

本文对大型语言模型（LLM）数据集进行了探索，这些数据集在LLM的显著进步中发挥着至关重要的作用。数据集作为基础基础设施，类似于支撑和培育LLM发展的根系统。因此，对这些数据集的检查成为研究中的一个关键课题。为了解决LLM数据集目前缺乏全面概述和彻底分析的问题，并深入了解其现状和未来趋势，本调查从五个角度对LLM数据集中的基本方面进行了整合和分类：（1）预训练语料库；（2）指令微调数据集；（3）偏好数据集；（4）评估数据集；（5）传统的自然语言处理（NLP）数据集。该调查揭示了当前的挑战，并指出了未来调查的潜在途径。此外，还提供了对现有可用数据集资源的全面审查，包括444个数据集的统计数据，涵盖8个语言类别和32个领域。来自20个维度的信息被纳入数据集统计。所调查的预训练语料库的总数据量超过774.5 TB，其他数据集的实例数超过700M。我们的目标是展示LLM文本数据集的整个面貌，为该领域的研究人员提供全面的参考，并为未来的研究做出贡献。相关资源可访问：https://github.com/lmmlzn/Awesome-LLMs-Datasets.