中文大模型数据集

中文端到端数据集

CATSLU

2、完成融合coig以及catslu数据的指令微调,在catslu测试数据集上效果验证domain acc=0.646,

中文指令数据集

BELLE

贝壳发布了多个指令数据集,包括多轮对话、数学题、角色对话等指令数据。
350万条多轮对话数据:BelleGroup/train_3.5M_CN · Datasets at Hugging Face
80万条多轮对话数据: BelleGroup/multiturn_chat_0.8M · Datasets at Hugging Face
25万条中文数学题:BelleGroup/school_math_0.25M · Datasets at Hugging Face
40万条角色对话数据:BelleGroup/generated_chat_0.4M · Datasets at Hugging Face
200万条中文指令数据: BelleGroup/train_2M_CN · Datasets at Hugging Face
100万条中文指令数据: BelleGroup/train_1M_CN · Datasets at Hugging Face
50万条中文指令数据: BelleGroup/train_0.5M_CN · Datasets at Hugging Face

COIG

由北京智源研究院等机构发布。其特点是数据类型非常丰富、数据量非常大。
17万条中文指令数据COIG:BAAI/COIG · Datasets at Hu

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值