百里挑一“萃取”数据精华,上海AI实验室开源发布高质量语料“万卷2.0”(万卷CC)

上海AI实验室发布了WanJuan-CC,一个包含100Btoken的高质量英文数据预训练语料,通过原创数据清洗技术提升了模型性能。WanJuan-CC将支持大模型训练,确保高效和可靠性。

近日,上海人工智能实验室(上海AI实验室)发布新一代高质量大模型预训练语料“WanJuan 2.0”(WanJuan-CC)(下文简称WanJuan-CC)首批开源的语料覆盖过去十年互联网上的公开内容,包含1千亿字符(100B token),约400GB的高质量英文数据。作为“大模型语料数据联盟”今年首发的开源语料,WanJuan-CC将为学界和业界提供大规模、高质量的数据支撑,助力构建更智能可靠的AI大模型。

预训练数据的质量对大模型整体性能至关重要。当前,CommonCrawl(CC)数据集因其规模大、跨度广而成为国际主流大模型训练数据的重要来源。与此同时,其原始数据格式复杂、数据质量低等问题,或将导致模型训练效率低,甚至可能引发价值观对齐等方面的隐患。

中国科研人员通过原创的数据清洗技术,从CC数据库中抽取约1300亿份原始数据文档进行再处理,“萃取”出其中约1.38%的高质量内容,构建成WanJuan-CC语料库。实验结果显示,WanJuanCC具有高文本质量、高信息密度的特点,可满足当前大模型训练对大规模高质量语料的需求。

上海AI实验室发布的书⽣·浦语2.0(

评论 6
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值