参考链接:https://github.com/datawhalechina/so-large-lm/tree/main
一、 大语言模型背后的数据
⼤型语⾔模型是在"原始⽂本"上进⾏训练的。为了实现⾼度的能⼒(如语⾔和世界知识),这些⽂本应涵盖⼴泛的领域、类型、语⾔等。
⽹络是寻找这种⽂本的⾃然场所(但不是唯⼀场所),因此这将是我们主要关注的焦点。
值得注意的是,⼤公司中存储的私有数据集甚⾄⽐公开可⽤的数据更⼤。
尽管⽹络数据丰富,但Bender等⼈在2021年的研究中指出:
- ⼤规模数据在全球⼈⼝中的代表性仍然不均衡。
- ⽹络数据过多地代表了来⾃发达国家的年轻⽤户。
- GPT-2的训练数据基于Reddit,根据⽪尤互联⽹研究的2016年调查,美国Reddit⽤户中有67%是男性,64%的年龄在18到29岁之间。
- 维基百科的编者中只有8.8-15%是⼥性。
- ⽹络上的骚扰可能会让某些⼈群(如跨性别者、神经发育不同的⼈)产⽣排斥感。
- 过滤"不良词汇"可能进⼀步边缘化某些⼈群(如LGBT+)。
因此,我们的结论是:理解和记录⽤于训练⼤型语⾔模型的数据集的组成是⾄关重要的。
1.1 WebText和OpenWebText数据集
WebText数据集被⽤于训练GPT-2模型。其⽬标是获取既多样化⼜⾼质量的数据集。
尽管OpenAI并没有公开发布WebText数据集,但OpenWebText数据集在理念上复制了WebText的构建⽅法。也就是说,虽然OpenWebText并⾮OpenAI直接