大模型的数据
注意:文章内容参考了斯坦福CS324 - Large Language Models课程,以及Datawhale的一起学相关课程中的内容。
在之前的两篇博客当中,我们已经了解了大模型的能力和大模型的架构。现在,我们要剥开洋葱的第一层,开始讨论这些模型是如何构建的。任何机器学习方法的起点都是训练数据,因此这就是我们开始的地方。
1. 大语言模型背后的数据
大型语言模型是在"原始文本"上进行训练的。为了实现高度的能力(如语言和世界知识),这些文本应涵盖广泛的领域、类型、语言等。
如何获得大量的数据呢?
- 网络
- 大公司私有数据
1.1 WebText和OpenWebText数据集
- WebText数据集被用于训练GPT-2模型。其目标是获取既多样化又高质量的数据集。
- OpenAI并没有公开发布WebText数据集,但OpenWebText数据集在理念上复制了WebText的构建方法
1.2 Colossal Clean Crawled Corpus(C4)
- C4语料库被用来训练T5模型。语料库806GB的文本(15