中文端到端数据集
CATSLU
2、完成融合coig以及catslu数据的指令微调,在catslu测试数据集上效果验证domain acc=0.646,
中文指令数据集
BELLE
贝壳发布了多个指令数据集,包括多轮对话、数学题、角色对话等指令数据。
350万条多轮对话数据:BelleGroup/train_3.5M_CN · Datasets at Hugging Face
80万条多轮对话数据: BelleGroup/multiturn_chat_0.8M · Datasets at Hugging Face
25万条中文数学题:BelleGroup/school_math_0.25M · Datasets at Hugging Face
40万条角色对话数据:BelleGroup/generated_chat_0.4M · Datasets at Hugging Face
200万条中文指令数据: BelleGroup/train_2M_CN · Datasets at Hugging Face
100万条中文指令数据: BelleGroup/train_1M_CN · Datasets at Hugging Face
50万条中文指令数据: BelleGroup/train_0.5M_CN · Datasets at Hugging Face
COIG
由北京智源研究院等机构发布。其特点是数据类型非常丰富、数据量非常大。
17万条中文指令数据COIG:BAAI/COIG · Datasets at Hu