datawhale大模型-数据

大模型数据要点笔记

1. 数据来源与规模

1.1 互联网数据

  • 网络是主要数据来源,规模巨大
    • Google搜索索引约100PB
    • Common Crawl提供网络快照(2021年4月快照约320TB)
    • 深网规模更大
  • 私有数据集规模可能更大(如沃尔玛每小时产生2.5PB数据)

1.2 数据代表性问题

  • 互联网数据存在代表性偏差:
    • 主要来自发达国家年轻用户
    • Reddit用户以男性为主(67%)
    • 维基百科编辑者女性比例低(8.8-15%)
    • 某些群体(如跨性别者)可能因骚扰而缺乏表达

2. 主要数据集介绍

2.1 WebText和OpenWebText

  • WebText(GPT-2训练数据):
    • 收集获得3个以上赞的Reddit外链
    • 过滤维基百科内容
    • 最终约40GB文本
  • OpenWebText:
    • 模仿WebText构建方法
    • 使用fastText过滤非英语内容
    • 约38GB文本
    • 毒性分析:2.1%内容毒性得分≥50%

2.2 C4(Colossal Clean Crawled Corpus)

  • 用于训练T5模型
  • 处理流程:
    • 始于2019年4月Common Crawl快照
    • 移除不当词汇和代码
    • 过滤非英语文本
    • 最终获得806GB文本(1560亿个标记)
  • 特点:
    • 51.3%来自美国托管页面
    • 大量内容来自patents.google.com
    • 92%内容为近十年所创作

2.3 GPT-3数据集

  • 主要基于Common Crawl(2016-2019年数据)
  • 处理方法:
    • 使用二元分类器筛选类WebText内容
    • 采用模糊去重
    • 移除与基准数据集重复内容
    • 扩展数据源(包含WebText2、Books1、Books2、维基百科)
  • Common Crawl在训练中被降采样(占82%但仅贡献60%数据)

2.4 The Pile数据集

  • 825GB英文文本
  • 22个高质量数据集组成
  • 特点:
    • 注重高质量专业资源
    • 补充了GPT-3数据集的覆盖范围
    • 同样存在偏见问题

3. 数据集文档化

3.1 文档重要性

  • 帮助创建者反思决策和潜在危害
  • 指导使用者合理使用数据集

3.2 文档关键要素

  • 创建动机和资助方
  • 数据组成和收集过程
  • 预处理和清理方法
  • 使用建议和限制
  • 分发和维护计划

4. 数据生态

4.1 数据治理

  • 关注数据创建、质量维护和安全性
  • BigScience项目致力于负责任地策划高质量数据

4.2 数据价值

  • 数据作为群体财产而非个体财产
  • 提出数据联盟概念
  • 需要在集体层面考虑数据价值
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值