最全-高质量大模型 -中文数据集（不定期更新）

数据猎手小k

已于 2024-09-15 19:21:53 修改

阅读量3.5k

点赞数 34

文章标签：语言模型

于 2024-09-12 11:27:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u011559552/article/details/142152619

版权

数据集：维基百科中文语料

发布时间：2024-09-11
链接地址：维基百科中文语料|自然语言处理数据集
数据集介绍：wikicorpus 是一个用于生成维基百科中文语料的数据集。包含从维基百科下载的中文词条文件，经过解析、清洗和处理后生成的语料文件。每个语料数据包含词条ID、词条标题和词条内容。

数据集：Chinese-Roleplay-Novel

发布时间：2024-09-11
链接地址：Chinese-Roleplay-Novel| 角色扮演数据集
数据集介绍：该数据集旨在填补中文角色扮演领域中交互游戏方向的开源数据空白。基于4500条小说文本，构建了约260条酒馆风格的多轮对话数据，每轮对话均包含详细的状态数据，如时间、角色状态、任务进度等。数据集结构包括世界观、场景、角色、对话内容等，状态信息以列表、表格、JSON等多种格式呈现。

数据集：CKnowEdit| 中文知识处理

发布时间：2024-09-10
发布机构：浙江大学
链接地址：CKnowEdit|大语言模型数据集|中文知识处理数据集
数据集介绍：CKnowEdit数据集由浙江大学创建，目的评估和改进大语言模型在处理中文知识时的准确性。数据集包含1760条数据，涵盖七种中文特有的知识类型，比如古诗、成语和百度贴吧内容等。数据集的构建过程包括从多个公开来源收集数据，并通过人工审核确保信息的准确性和文化相关性。应用领域主要集中在提升LLMs对中文语言和文化的理解和生成能力，目的解决当前模型在处理中文时产生的误解和错误。

数据集：Chinese Fineweb Edu

发布时间：2024-08-26
发布机构：OpenCSG
链接地址：Chinese Fineweb Edu|教育数据集
数据集介绍：Chinese Fineweb Edu 数据集是一个精心构建的高质量中文预训练语料数据集，专为教育领域的自然语言处理任务设计。该数据集通过严格的筛选和去重流程，利用少量数据训练打分模型进行评估，从海量的原始数据中提取出高价值的教育相关内容，确保数据的质量和多样性。最终，数据集包含约90M条高质量的中文文本数据，总大小约为300GB。

数据集：MME-RealWorld

发布时间：2024-08-17
链接地址：MME-RealWorld|图像注释数据集|机器学习基准数据集
数据集介绍：MME-RealWorld是一个精心设计的基准，旨在解决现实世界应用中的实际问题。该数据集包含13,366张高分辨率图像，平均分辨率为2,000 × 1,500像素，涵盖29,429个由25名众包工作者和7名MLLM专家精心制作的注释，涉及43个任务。数据集的主要优势包括：1) 数据规模：由32名志愿者手动注释的29,429个QA对，是目前已知的最大全人工注释基准。2) 数据质量：高分辨率图像和人工完成的注释，确保了数据质量。3) 任务难度和实际应用价值：即使是最高级的模型，准确率也未超过60%，许多现实世界的任务比传统基准更难。4) 中文版本MME-RealWord-CN：针对中文场景收集的图像和注释，解决了英文版本翻译可能存在的问题。

数据集：ShenNong_TCM_Dataset

发布时间：2024-06-13
链接地址：ShenNong_TCM_Dataset|中医数据集|机器学习数据集
数据集介绍：ShenNong-TCM中文中医药大模型的中医药微调数据集，数据量达到11w+。

数据集：IndustryCorpus 1.0

发布时间：2024-06-13
发布机构：北京智源人工智能研究院
链接地址：IndustryCorpus 1.0|中英文行业数据集
数据集介绍：为加速推进大模型技术的产业应用进程，智源研究院构建并开源了IndustryCorpus中英文多行业数据集。

数据集：DINER

发布时间：2024-06-07
发布机构：北京大学王选计算机技术研究所
链接地址：DINER|自然语言处理数据集|机器学习数据集
数据集介绍：DINER是一个大规模的真实中文数据集，由北京大学王选计算机技术研究所创建，旨在通过识别菜名中的食物、动作和口味组合来评估组合泛化能力。数据集包含3,803种菜名和223,581条对应的食谱，涉及丰富的语言现象如指代、省略和歧义。创建过程中，数据集通过最大复合分布差异(TMCD)方法进行分割，以确保训练和测试集的分布差异最大化。DINER数据集的应用领域主要集中在自然语言处理和机器学习，特别是在菜名识别和组合泛化能力的评估上，为模型提供了挑战性的任务和丰富的语言现象分析。

数据集：SFT数据集_中文|大模型多轮对话

发布时间：2024-05-31
链接地址：大模型多轮对话SFT数据集_中文
数据集介绍：多轮对话数据集，选取了十万轮作为本次开源的“大模型多轮对话SFT数据集_中文”，其来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。本次开源的部分数据，由来自中国的644名不同ID的采集人独家贡献，北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开，上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力，以及端到端对话大模型。

数据集：theblackcat102/bilibili_comments_sharegpt

发布时间：2024-05-23
链接地址：theblackcat102/B站|自然语言处理数据集|机器学习数据集
数据集介绍：数据集包含合并后的B站中文留言，已去除表情符号。适用于与其他对话资料混合训练，但单独使用时需注意过拟合风险。

数据集：Rhma/CONAN

发布时间：2024-05-15
链接地址：Rhma/CONAN|仇恨言论数据集|机器学习数据集
数据集介绍：数据集用于研究中文环境下的仇恨言论和反言论，包含用户的ID、仇恨言论内容、反言论内容、仇恨言论类型、子类型、用户类型、年龄、性别和教育水平等信息。

数据集：shareAI-Llama3 |中文化偏好数据集

发布时间：2024-05-05
链接地址：shareAI-Llama3 中文化偏好数据集|语言偏好数据集|机器学习数据集
数据集介绍：shareAI-Llama3 中文化偏好数据集 (也可以反向用于训练英文）

数据集：CMNEE

发布时间：2024-04-18
发布机构：国防科技大学、东南大学和清华大学
链接地址：CMNEE|军事新闻数据集
数据集介绍：CMNEE（Chinese Military News Event Extraction dataset）是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件，所有事件均基于预定义的军事领域模式人工标注，包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略，首先通过权威网站获取军事新闻文本并预处理，然后依据触发词字典进行预标注，经领域专家审核后形成事件模式。随后，通过人工分批、迭代标注并持续修正，直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集，对推动相关研究具有显著意义。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。