AI好文推荐 | LLM数据集全面调研

最新推荐文章于 2025-10-01 04:02:14 发布

原创

最新推荐文章于 2025-10-01 04:02:14 发布 · 2.6k 阅读

50 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

文摘要概述

论文Datasets for Large Language Models: A Comprehensive Survey（arXiv:2402.18041）从五个方面对LLM数据集的基本方面进行了整合和分类：（1）预训练语料库；（2）指令微调数据集；（3）偏好数据集；（4）评价数据集；（5）传统自然语言处理（NLP）数据集。

该论文提供了对现有可用数据集资源的全面回顾，包括来自444个数据集的统计数据，涵盖8个语言类别，跨越32个领域，整合了来自20个维度的统计信息。调查的总数据量超过了774.5TB的预训练语料库和7亿个其他数据集实例。

*这里重点对该论文的前半部分，即预训练语料库和指令微调数据集进行分析讨论。

论文局限

这篇论文只综述了纯文本的数据集，不包括多模态数据集。

图1. 代表性大型语言模型数据集的时间线

橙色代表预训练语料库，黄色代表指令微调数据集，绿色代表偏好数据集，粉色代表评估数据集。

Part.A 预训练语料

在预训练阶段，LLM从大量未标记的文本数据中学习广泛的知识，然后将其存储在模型参数中。作为LLM的基石，预训练语料库影响着预训练的方向以及模型未来的潜力，预训练语料在提供通用性、增强泛化能力、提升性能水平、支持多语言处理等方面发挥重要作用。

01 预训练语料分类

预训练语料库可以包含各种类型的文本数据，如网页、学术材料、书籍，同时也可以容纳来自不同领域的相关文本，如法律文件、年度财务报告、医学教科书和其他特定领域的数据。

各种预训练语料库各有特色，亦存在不足之处。网页是预训练语料库中最普遍和最广泛的数据类型，但它通常包含大量的噪音，无关信息和敏感内容，使其不适合直接使用。社交媒体数据中可能存在有害信息，如偏见、歧视和暴力，但它对于LLM的预训练仍然是至关重要的。因为社交媒体数据有利于模型学习对话交流中的表达能力，以及捕捉社会趋势、用户行为模式等。书籍资料拥有更连贯的文本结构和更高的数据质量，但通常情况下，它们的更新速度较慢，可能无法及时反映当下的语言使用习惯和社会变迁。此外，书籍的覆盖领域和语言风格可能较为有限，这可能会限制模型在多样化和现实世界场景中的应用能力。因此，在选择预训练语料库时，需要综合考虑数据的多源性、覆盖面、时效性以及可能存在的偏差和风险，以确保预训练出的模型既具有广泛的适用性，又能在特定领域内表现出色。

图2. 通用预训练语料库的数据类别

02 网页预训练语料库的构建方法

网页语料库的构建通常有两种主要方法。

第一种方法是建立在Common Crawl的基础上。许多后续的预训练语料库是通过从Common Crawl中重新选择和清洗数据而得到的。例如，RefinedWeb、C4、mC4、CC100、OSCAR 22.01、RedPajamaV2、CC-Stories、RealNews、CLUECorpus2020、CulturaX等。

第二种方法是独立抓取各种原始网页，然后采用一系列清洗过程来获得最终的语料库。例如，WuDaoCorpora-Text、MNBVC、WanJuanText-1.0、TigerBot pretrain zh corpus等。