智源研究院COIG第二期开源！上新千个中文数据集，星尘数据参与搭建

COIG-PC是智源研究院发布的首个大规模、可商用的中文指令数据集，旨在提升大语言模型在中文处理上的能力。该数据集整合了众多开源数据，支持多任务指令，且注重数据质量与合规性。星尘数据深度参与了该项目，并提供了COSMO大模型数据金字塔解决方案，以提升模型性能。此数据集解决了中文数据获取、标注、质量和模型迭代的挑战，为中文NLP领域带来新机遇。

各位AI研究者及开发者，

“千模大军”们，

是否一直在寻找高质量的中文语料库？

星尘君告诉您一个好消息！

📢📢📢

6月9日，

在第五届智源大会上，

智源研究院院长黄铁军

公布国内首个大规模、可商用的

中文指令数据COIG最新进展！

COIG第2期Prompt Collection：

最大规模、持续更新的

中文多任务指令数据集来了！

COIG第2期Prompt Collection

整合海量开源数据，

当前已发布来自348个源数据集的

949个指令任务文件，

未来将持续更新。

目前，COIG-PC第一版已开源，

星尘数据深度参与了本项目的搭建！

与其他中文指令数据集相比，COIG-PC覆盖了绝大多数的传统自然语言处理场景，支持商用许可，且支持根据需要自行采样，还有对不同指令的细粒度类型与领域说明。

项目团队正积极工作，预计将整合超过1800个开源数据集，并通过人工改写，精心整理近4亿条指令数据，并提供完善的数据筛选、版本控制工具，方便研究使用。

开源地址：

https://huggingface.co/datasets/BAAI/COIG-PC

一、中文数据为何难？

1、获取数据难

数据是大模型训练的基础，但获取大模型训练所需的预训练、SFT、 RLHF 、CoT、多轮对话等数据集是一项挑战。尤其对于某些特定的领域和主题，相关数据可能非常稀缺，获取成本极高，训练的模型效果不能保证。此外，数据的获取还涉及到许多法律和伦理问题，如用户隐私保护和数据所有权等。

2、标注数据难

大模型数据标注不同于过往的AI数据标注，数据需求量大，原始数据来源广、子任务多。不仅需要更加专业的标注团队来进行任务类型的设计、规范；还需要本科以上的、具备专业语言理解能力和写作能力的标注人员对数据进行标注、编写；更需要专业的NLP专家对中文语境的难例、特例进行细节和质量的把控，能够有效反馈模型训练。

3、质量保证难

数据的质量直接影响到模型的性能，但确保大模型数据的质量是一项挑战。大模型数据需要保证3H原则，即Helpful、Honest、Harmless。不仅需要确保数据多样性、有用性和无害性，还需要避免主观性和幻觉，脱离政治敏感、种族歧视等敏感内容。

4、模型迭代难

大模型风口期短，数据要求快、准、实时更新。想要提高大模型训练的效果，需要数据侧动态反馈，不断磨合，由专业NLP团队和数据策略专家与算法互动，进行数据的更新和迭代。

二、什么是COIG-PC？

COIG-PC数据集是智源研究院联合北京大学、香港科技大学、滑铁卢大学、谢菲尔德大学、北京邮电大学、M-A-P Community，星尘数据等精心策划和全面收集的中文任务和数据集，旨在提供丰富的资源，以提高大语言模型文本生成、信息提取、情感分析、机器翻译等能力，促进中文大语言模型的微调和优化。

COIG-PC采用类似FLAN Collection的Instruction数据收集流程：通过对来源于互联网的传统NLP数据集进行改写，高质量地建模NLP常规指令，并进行精心开发与优化。研究者和开发人员可在遵守各原始数据集使用规则前提下，基于学习、研究、商业等目的使用。