大模型数据要点笔记
1. 数据来源与规模
1.1 互联网数据
- 网络是主要数据来源,规模巨大
- Google搜索索引约100PB
- Common Crawl提供网络快照(2021年4月快照约320TB)
- 深网规模更大
- 私有数据集规模可能更大(如沃尔玛每小时产生2.5PB数据)
1.2 数据代表性问题
- 互联网数据存在代表性偏差:
- 主要来自发达国家年轻用户
- Reddit用户以男性为主(67%)
- 维基百科编辑者女性比例低(8.8-15%)
- 某些群体(如跨性别者)可能因骚扰而缺乏表达
2. 主要数据集介绍
2.1 WebText和OpenWebText
- WebText(GPT-2训练数据):
- 收集获得3个以上赞的Reddit外链
- 过滤维基百科内容
- 最终约40GB文本
- OpenWebText:
- 模仿WebText构建方法
- 使用fastText过滤非英语内容
- 约38GB文本
- 毒性分析:2.1%内容毒性得分≥50%
2.2 C4(Colossal Clean Crawled Corpus)
- 用于训练T5模型
- 处理流程:
- 始于2019年4月Common Crawl快照
- 移除不当词汇和代码
- 过滤非英语文本
- 最终获得806GB文本(1560亿个标记)
- 特点:
- 51.3%来自美国托管页面
- 大量内容来自patents.google.com
- 92%内容为近十年所创作
2.3 GPT-3数据集
- 主要基于Common Crawl(2016-2019年数据)
- 处理方法:
- 使用二元分类器筛选类WebText内容
- 采用模糊去重
- 移除与基准数据集重复内容
- 扩展数据源(包含WebText2、Books1、Books2、维基百科)
- Common Crawl在训练中被降采样(占82%但仅贡献60%数据)
2.4 The Pile数据集
- 825GB英文文本
- 22个高质量数据集组成
- 特点:
- 注重高质量专业资源
- 补充了GPT-3数据集的覆盖范围
- 同样存在偏见问题
3. 数据集文档化
3.1 文档重要性
- 帮助创建者反思决策和潜在危害
- 指导使用者合理使用数据集
3.2 文档关键要素
- 创建动机和资助方
- 数据组成和收集过程
- 预处理和清理方法
- 使用建议和限制
- 分发和维护计划
4. 数据生态
4.1 数据治理
- 关注数据创建、质量维护和安全性
- BigScience项目致力于负责任地策划高质量数据
4.2 数据价值
- 数据作为群体财产而非个体财产
- 提出数据联盟概念
- 需要在集体层面考虑数据价值