百里挑一“萃取”数据精华，上海AI实验室开源发布高质量语料“万卷2.0”（万卷CC）

原创

已于 2024-04-18 18:08:42 修改 · 1.4k 阅读

·

19

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2024-03-08 14:11:52 首次发布

上海AI实验室发布了WanJuan-CC，一个包含100Btoken的高质量英文数据预训练语料，通过原创数据清洗技术提升了模型性能。WanJuan-CC将支持大模型训练，确保高效和可靠性。

近日，上海人工智能实验室（上海AI实验室）发布新一代高质量大模型预训练语料“WanJuan 2.0”（WanJuan-CC）（下文简称WanJuan-CC），首批开源的语料覆盖过去十年互联网上的公开内容，包含1千亿字符（100B token），约400GB的高质量英文数据。作为“大模型语料数据联盟”今年首发的开源语料，WanJuan-CC将为学界和业界提供大规模、高质量的数据支撑，助力构建更智能可靠的AI大模型。

预训练数据的质量对大模型整体性能至关重要。当前，CommonCrawl（CC）数据集因其规模大、跨度广而成为国际主流大模型训练数据的重要来源。与此同时，其原始数据格式复杂、数据质量低等问题，或将导致模型训练效率低，甚至可能引发价值观对齐等方面的隐患。

中国科研人员通过原创的数据清洗技术，从CC数据库中抽取约1300亿份原始数据文档进行再处理，“萃取”出其中约1.38%的高质量内容，构建成WanJuan-CC语料库。实验结果显示，WanJuanCC具有高文本质量、高信息密度的特点，可满足当前大模型训练对大规模高质量语料的需求。

上海AI实验室发布的书⽣·浦语2.0（

最低0.47元/天解锁文章

6 条评论

7W36 2024.03.25
你好，我第一次使用贵网站，请问这个错误怎么解决呢？ ValueError: call getJwt error, message: Failed to get nonce
- 7W36回复OpenDataLab 2024.04.09
  你好，感谢回复，已发送好友请求。是进行登录，输入对应的AK/SK 遇到的。我又试了一下，ValueError: call auth error, message: Failed to find valid AK。
- OpenDataLab回复7W36 2024.04.07
  如果还没解决的话，可以添加小助手微信，我们详细帮忙你看看：opendatalab_yunying
- OpenDataLab回复7W36 2024.04.07
  是在登录时遇到的吗
- OpenDataLab回复7W36 2024.04.07
  您好，可以提供一下用户ID 和 python 版本号嘛？

优快云-Ada助手 2024.03.09
不知道 Python入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python

评论 6

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。