智源研究院发布开源中文互联网语料库 CCI 4.0

2025 年 5 月 6 日,智源研究院在法国巴黎举行的 GOSIM 全球开源创新论坛上发布大型开源文本数据集 CCI 4.01。以下是对 CCI 4.0 的具体介绍:

  • 发布背景:智源研究院于 2023 年 11 月首次发布中文互联网语料库 CCI 1.0,并于 2024 年 3 月和 10 月分别完成 CCI2.0 和 CCI3.0 的迭代,系列数据集的下载量已超过 14 万次,支持 500 余个企事业单位的大模型研发。
  • 核心特点
    • 多语种扩展:从单一语言数据集扩展为多语种数据集,本次发布包括中、英语两种语言,后续还将开源更多语言版本。
    • 数据规模大:此次开源的 CCI 4.0 - M2 - V1 包括 3 个子数据集,即 CCI 4.0 - M2 - Base V1、CCI 4.0 - M2 - CoT V1 和 CCI 4.0 - M2 - Extra V1,数据总量达 35TB。其中,CCI 4.0 - M2 - Base V1 是中英双语数据集,数据总量达 26000GB,中文数据量为 4300GB,相较于 CCI 3.0 数据规模增加 4 倍。
    • 引入新方法:首次采用 CoT(Chain of Thought)方法进行推理轨迹数据合成,以提升预训练模型的基础推理能力。CCI 4.0 - M2 - CoT V1 是中英双语合成数据集,包含用于提升推理能力的超过 4 亿条逆向合成人类思考轨迹数据,总 token 数量达 425B(4250 亿),比当前全球最大的开源合成数据集 Cosmopedia 规模提升近 20 倍。
    • 数据处理精细:针对不同来源的数据,CCI 4.0 在建设过程中采取了去重、质量分类、QA 合成、loss 过滤等处理原则。针对英文数据,进行领域分类和流畅度过滤等处理;针对中文数据,进行全局及分领域来源字符串去重,常规、低质、分领域流畅程度过滤,多种质量打分和分档等处理;针对合成数据,进行语义分段及摘要、总结思维链及合成问题等处理。并且,智源研究院就 CCI 4.0 数据集开源进行了严格评审,以确保数据安全合规。
  • 重要意义:CCI 4.0 数据集中的英文语料、中文语料及合成数据对模型训练效率及性能均有有效提升,为全球的大模型创新发展提供了重要的开源资源,积极推动了全球开源合作,在自然语言处理、机器翻译、智能问答系统和信息检索等应用场景中具有重要作用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

自不量力的A同学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值