第5章 大模型的数据

大型语言模型的能力来源于广泛的训练数据,这些数据通常涵盖了多种领域和语言,主要以网络上的原始文本为基础。本章讨论了大模型背后的数据构成、数据的偏差和问题,以及如何通过文档记录和数据治理提高数据质量和透明度。


5.1 大语言模型背后的数据

5.1.1 数据来源与规模

  1. 网络数据
    网络是获取大规模文本数据的主要来源:

    • 规模:谷歌搜索索引约有100PB数据,深网和私有数据量更大。
    • 常用数据集
      • Common Crawl:非营利组织提供的公共网络爬取数据。
        • 2021年4月的快照包含320TB数据。
      • 其他来源:私有数据、书籍、新闻、学术文献等。
  2. 偏差与代表性问题

    • 网络数据不均衡地代表了发达国家的年轻用户。
    • 数据可能体现性别、种族等方面的偏见。例如:
      • Reddit用户中67%为男性。
      • 维基百科编者仅8.8%-15%是女性。
    • 过滤不良词汇可能无意中排除某些群体的内容。

5.1.2 关键数据集

  1. WebText与OpenWebText

    • WebText:用于GPT-2训练,通过筛选Reddit外链高赞内容创建,包含40GB文本。
    • Op
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

确实啊,对对对

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值