第五章:大模型的数据

本文探讨了大型语言模型背后的数据来源,如WebText、C4和GPT-3的数据集,强调了数据的不平衡性和污染问题,以及数据集文档对于理解和使用数据的重要作用。同时提到了数据生态视角下的数据管理挑战和价值挖掘需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考链接:https://github.com/datawhalechina/so-large-lm/tree/main

一、 大语言模型背后的数据

⼤型语⾔模型是在"原始⽂本"上进⾏训练的。为了实现⾼度的能⼒(如语⾔和世界知识),这些⽂本应涵盖⼴泛的领域、类型、语⾔等。
⽹络是寻找这种⽂本的⾃然场所(但不是唯⼀场所),因此这将是我们主要关注的焦点。
值得注意的是,⼤公司中存储的私有数据集甚⾄⽐公开可⽤的数据更⼤。

尽管⽹络数据丰富,但Bender等⼈在2021年的研究中指出:

  • ⼤规模数据在全球⼈⼝中的代表性仍然不均衡。
  • ⽹络数据过多地代表了来⾃发达国家的年轻⽤户。
  • GPT-2的训练数据基于Reddit,根据⽪尤互联⽹研究的2016年调查,美国Reddit⽤户中有67%是男性,64%的年龄在18到29岁之间。
  • 维基百科的编者中只有8.8-15%是⼥性。
  • ⽹络上的骚扰可能会让某些⼈群(如跨性别者、神经发育不同的⼈)产⽣排斥感。
  • 过滤"不良词汇"可能进⼀步边缘化某些⼈群(如LGBT+)。

因此,我们的结论是:理解和记录⽤于训练⼤型语⾔模型的数据集的组成是⾄关重要的。

1.1 WebText和OpenWebText数据集

WebText数据集被⽤于训练GPT-2模型。其⽬标是获取既多样化⼜⾼质量的数据集。
尽管OpenAI并没有公开发布WebText数据集,但OpenWebText数据集在理念上复制了WebText的构建⽅法。也就是说,虽然OpenWebText并⾮OpenAI直接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值