- 博客(1)
- 收藏
- 关注
原创 大模型预训练中的数据处理及思考_训练大模型数据需要怎么处理
大模型预训练需要从海量的文本数据中学习到充分的知识存储在其模型参数中。预训练所用的数据可以分为两类。一类是网页数据(web data),这类数据的获取最为方便,各个数据相关的公司比如百度、谷歌等每天都会爬取大量的网页存储起来。其特点是量级非常大,比如非盈利性机构构建的CommonCrawl数据集是一个海量的、非结构化的、多语言的网页数据集。
2024-07-22 18:15:00
1581
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人