本文是LLM系列文章,针对《Datasets for Large Language Models: A Comprehensive Survey》的翻译。
大型语言模型的数据集:一项综合调查
摘要
本文对大型语言模型(LLM)数据集进行了探索,这些数据集在LLM的显著进步中发挥着至关重要的作用。数据集作为基础基础设施,类似于支撑和培育LLM发展的根系统。因此,对这些数据集的检查成为研究中的一个关键课题。为了解决LLM数据集目前缺乏全面概述和彻底分析的问题,并深入了解其现状和未来趋势,本调查从五个角度对LLM数据集中的基本方面进行了整合和分类:(1)预训练语料库;(2) 指令微调数据集;(3) 偏好数据集;(4) 评估数据集;(5) 传统的自然语言处理(NLP)数据集。该调查揭示了当前的挑战,并指出了未来调查的潜在途径。此外,还提供了对现有可用数据集资源的全面审查,包括444个数据集的统计数据,涵盖8个语言类别和32个领域。来自20个维度的信息被纳入数据集统计。所调查的预训练语料库的总数据量超过774.5 TB,其他数据集的实例数超过700M。我们的目标是展示LLM文本数据集的整个面貌,为该领域的研究人员提供全面的参考,并为未来的研究做出贡献。相关资源可访问:https://github.com/lmmlzn/Awesome-LLMs-Datasets.
1 引言
随着ChatGPT的发布,在短短几个月内,大型语言模型(LLM)引起了越来越多的研究关注,成为研究热点。各种LLM已经相继开源,参数大小从几十亿到一千多亿不等。例子包括LLaMA、Phi、ChatGLM、QWen、Baichuan等。相当多的工作涉及对基本模型的微调,从而产生性能良好的通用会话模型或特定领域模型。从人的反馈中强化学习(R

本文深入探讨了大型语言模型(LLM)数据集,包括预训练语料库、指令微调数据集、偏好数据集和评估数据集。调查涵盖了444个数据集,涉及8种语言和32个领域,总计超过774.5 TB的预训练数据和7亿个实例。研究突出了数据集在LLM发展中关键作用,同时指出了当前挑战和未来发展方向,如数据多样性和质量评估。
订阅专栏 解锁全文
139





