大型语言模型的能力来源于广泛的训练数据,这些数据通常涵盖了多种领域和语言,主要以网络上的原始文本为基础。本章讨论了大模型背后的数据构成、数据的偏差和问题,以及如何通过文档记录和数据治理提高数据质量和透明度。
5.1 大语言模型背后的数据
5.1.1 数据来源与规模
-
网络数据
网络是获取大规模文本数据的主要来源:- 规模:谷歌搜索索引约有100PB数据,深网和私有数据量更大。
- 常用数据集:
- Common Crawl:非营利组织提供的公共网络爬取数据。
- 2021年4月的快照包含320TB数据。
- 其他来源:私有数据、书籍、新闻、学术文献等。
- Common Crawl:非营利组织提供的公共网络爬取数据。
-
偏差与代表性问题
- 网络数据不均衡地代表了发达国家的年轻用户。
- 数据可能体现性别、种族等方面的偏见。例如:
- Reddit用户中67%为男性。
- 维基百科编者仅8.8%-15%是女性。
- 过滤不良词汇可能无意中排除某些群体的内容。
5.1.2 关键数据集
-
WebText与OpenWebText
- WebText:用于GPT-2训练,通过筛选Reddit外链高赞内容创建,包含40GB文本。
- Op