大语言模型关键数据集：种类与应用-优快云博客

本作品采用“Creative Commons Attribution-NoDerivatives 4.0 International License”（署名-禁止演绎 4.0 国际许可证）进行许可。要查看该许可证的副本，请访问 https://creativecommons.org/licenses/by-nd/4.0/

本文链接：https://blog.youkuaiyun.com/qq_35827483/article/details/135314858

大语言模型的数据集有很多，以下是一些常用的：

- 中文维基百科：这是一个包含大量中文文本的数据集，可用于训练中文语言模型。
- 英文维基百科：这是一个包含大量英文文本的数据集，可用于训练英文语言模型。
- Common Crawl：这是一个包含大量英文文本的数据集，可用于训练英文语言模型。
- WebQuestionSP数据集、ComplexWebQuestions数据集、GraphQuestions数据集、GrailQA数据集、KQApro数据集、QALD-9数据集、MKQA数据集等：这些都是近年来大火的大语言模型数据集。

此外，一个1.6TB的数据集跨越了59种语言(46种自然语言，13种编程语言)，用于训练拥有1760亿个参数的BigScience大型公开科学多语言开放访问(BLOOM)语言模型。

在开发大语言模型时，选择适合的数据集是非常重要的。为了节省数据准备时间并带来启发，可以参考OpenDataLab已上架的、不同分类对应的的可用于大语言模型的预训练、指令微调等数据资源。同时，也可以参考huggingface，modelscope等平台，这些平台上有一些常用的数据集。

1. **Common Crawl**
- 网址: [http://commoncrawl.org](http://commoncrawl.org)
- 介绍: Common Crawl是一个非盈利组织，提供公共访问的Web数据集。它定期爬取整个网站，并通过其归档让大量的网页文本数据可用于各种研究和开发目的。

2. **Wikipedia**
- 网址: [https://dumps.wikimedia.org](https://dumps.wikimedia.org)
- 介绍: 维基百科数据转储包含了所有维基百科条目的文本ÿ