自己整理的一些NLP数据集【不定期更新】

本文概述了多个来自不同领域的数据集,包括通用知识图谱、医疗事件图谱、法律阅读理解、中文SQuAD、中医问题生成、金融文本分类等,涵盖了自然语言处理、阅读理解、命名实体识别等多个技术方向,展示了AI研究和应用的重要资源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

序号数据集名称数据来源领域适用任务语言数量简介
1通用知识图谱数据集OpenKG通用知识图谱中文1.4亿ownthink开源了史上最大规模1.4亿知识图谱数据集,数据是以(实体、属性、值),(实体、关系、实体)混合的形式组织,数据格式采用csv格式。
2病人事件图谱数据集华东理工大学医疗知识图谱中文3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念病人事件图谱是一种新的基于RDF的医疗观察性数据表示模型,可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。使用三家上海三甲医院的电子病历数据,构建了包括3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。
3herbnet数据集中国中医科学院中医药信息研究所医疗知识图谱中文/面向中药研究,根据中药领域模型的特点,构建了一个包括中医疾病,方剂,中药, 中药化学成分,药理作用,中药实验,化学实验方法在内的中药本体。 进而,基于本体实现了一系列数据库的集成,从而构建了一个中药知识图谱。
4cail2020第三届“中国法研杯”司法人工智能挑赛(CAIL2020)法律阅读理解中文一部分为去年的CJRC训练集,一部分为重新标注的约3000个问答对,其中民事、刑事、行政各1000个问答对,均为需要多步推理的问题类型。验证集和测试集各约3000个问答对本任务技术评测训练集包括两部分,一部分为去年的CJRC训练集,一部分为重新标注的约3000个问答对,其中民事、刑事、行政各1000个问答对,均为需要多步推理的问题类型。验证集和测试集各约3000个问答对,同样均为需要多步推理的问题类型
5CMRC2018哈尔滨工业大学·科大讯飞研究院·科大讯飞人工智能研究通用阅读理解中文CMRC 是一个由人类专家注释的数据集,包含近 20,000 个问题以及一个具有挑战性的集合,该集合由需要对多个线索进行推理的问题组成。CMRC2018数据集是华语界出名的中文SQuAD数据集
6dureader百度通用阅读理解中文包含了20万个问题、100万个文档和超过42万个人类总结的答案DuReader,一个新的大型开放中文机器阅读理解数据集。 DuReader 与以前的 MRC 数据集相比有三个优势: 数据来源:问题和文档均基于百度搜索和百度知道; 答案是手动生成的
7squad1.1斯坦福大学通用阅读理解中文包含 10 万 个(问题,原文,答案)三元组SQuAD 是由 Rajpurkar等人提出的一个 抽取式QA数据集 [闭集]。该数据集包含 10 万 个(问题,原文,答案)三元组,原文来自于 536 篇维基百科文章
8squad2斯坦福大学通用阅读理解中文组合了SQuAD1.1中的10万个问题,并增加了超过5万个无法回答的问题SQuAD 是由 Rajpurkar等人提出的一个 抽取式QA数据集 [闭集]。该数据集包含 10 万 个(问题,原文,答案)三元组,原文来自于 536 篇维基百科文章
9中医问题生成数据集天池比赛医疗问题生成中文/中医问题生成数据集
10AFQMC天池比赛金融文本分类中文总样本数为:38650蚂蚁金融语义相似度数据集,用于问题相似度计算
11Chinese-MNLICLUE通用文本分类中文训练 验证 测试:550k 10k 10k中文自然语言推理数据集(A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset) 本数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。
12Chinese-SNLICLUE通用文本分类中文训练 验证 测试:390k 12k 13k中文自然语言推理数据集(A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset) 本数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。
13Chinese-STS-BCLUE通用文本分类中文训练 验证 测试:5.7k 1.5k 1.3k中文自然语言推理数据集(A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset) 本数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。
14CINLID/通用文本分类中文收集了91,247个由人工撰写的成语对中文成语语义推理数据集
15LCQMC哈尔滨工业大学通用文本分类中文总样本数为:260068中文问答匹配数据集
16OCNLICLUE通用文本分类中文OCNLI包含5万余训练数据,3千验证数据及3千测试数据原生中文自然语言推理数据集,是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。
17PAWS-X谷歌通用文本分类中文23659组PAWS扩展句子对、296406组机器翻译的训练对谷歌发布的同义句识别数据集,中文部分包含了释义对和非释义对,即识别一对句子是否具有相同的释义(含义),特点是具有高度重叠词汇,重点考察模型对句法结构的理解能力
18PKU-Paraphrase-Bank北京大学通用文本分类中文509832 组句子对,平均每句 23.05 个词北大中文文本复述数据集
19weibo_senti_100k新浪微博通用文本分类中文100k,正负面评论约各50k10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条
20TriviaQA华盛顿大学·艾伦人工智能研究所通用阅读理解英文包括来自维基百科和网络的 662K 文档中的 950K 问答对TriviaQA 是一个现实的基于文本的问答数据集,其中包括来自维基百科和网络的 662K 文档中的 950K 问答对。该数据集比斯坦福问答数据集(SQuAD)等标准 QA 基准数据集更具挑战性,因为问题的答案可能无法通过跨度预测直接获得,而且上下文很长。 TriviaQA 数据集由人工验证和机器生成的 QA 子集组成。
21Douban_Conversation_Corpus北京航空航天大学·南开大学·Microsoft Research通用阅读理解中文训练 验证 测试:1m 50k 10k豆瓣会话语料库,包括一个训练数据集、一个开发集和一个基于检索的聊天机器人的测试集。豆瓣会话语料统计如下表所示。 训练 验证 测试 会话响应对 1m 50k 10k 平均每个会话的积极响应 1 1 1.18 无情河童 不适用 不适用 0.41 每次会话的最小转数 3 3 3 每个会话的最大值 98 91 45 每次会话的平均转数 6.69 6.75 5.95 每个话语的平均字数 18.56 18.50 20.74 测试数据包含 1000 个对话上下文,对于每个上下文,我们创建 10 个响应作为候选。我们招募了三名标注员来判断候选人是否对会议做出了适当的回应。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签,大部分标签被视为最终决定。 据我们所知,这是第一个用于基于检索的聊天机器人的人工标记测试集。
22Weibo_NER约翰霍普金斯大学通用命名实体识别中文/微博NER数据集是取自社交媒体网站新浪微博的中文命名实体识别数据集。
23MCSCSet中山大学,Mila – Quebec Artifcial Intelligence Institute,清华大学深圳国际研究生院,腾讯天衍实验室医疗中文语料中文这是一个包含约20万个样本的大规模专家注释数据集这是一个大型的专家注释数据集,专门用于医学领域的中文拼写校正 (MCSC)。与现有的开放域CSC数据集相比,MCSCSet涉及: i) 从腾讯一点收集的大量真实医学查询,ii) 由医学专家手动注释的相应拼写错误的句子。我们的资源进一步提供了医学领域的混淆集,其中包括医学中常见的易出错字符及其相应的拼写错误。
24DuRecDial哈尔滨工业大学·百度通用中文语料中文大约 10k 个对话,156k 个话语一个人对人的中文对话数据集(大约 10k 个对话,156k 个话语),其中包含针对每对推荐寻求者(用户)和推荐者(机器人)的多个顺序对话。
25MSRANER微软亚洲研究院通用命名实体识别中文训练45k,测试3.5kMSRANER是由微软亚洲研究院标注的新闻领域的实体识别数据集
26baike2018qabrightmart通用阅读理解中文含有150万个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别,其中频率达到或超过10次的类别有434个。含有150万个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别,其中频率达到或超过10次的类别有434个。
27维基百科(wiki2019zh)brightmart通用中文语料中文100万个结构良好的中文词条100万个结构良好的中文词条
28CrossWOZ清华大学·北京信息科学与技术国家研究中心通用任务导向对话中文包含 5 个领域的 6K 对话会话和 102K 话语,包括酒店、餐厅、景点、地铁和出租车CrossWOZ是第一个面向任务的大型中文跨域Wizard-of-Oz向导数据集。它包含 5 个领域的 6K 对话会话和 102K 话语,包括酒店、餐厅、景点、地铁和出租车。此外,语料库包含丰富的对话状态注释和用户和系统双方的对话行为。
29CMRC_2019哈工大与科大讯飞联合实验室通用阅读理解中文10k篇章,100k问题CMRC 2019 是一个中文机器阅读理解数据集,用于第三届中文机器阅读理解评估研讨会。具体来说,CMRC 2019 是一个句子完形填空式机器阅读理解数据集,旨在评估句子级推理能力。
30THUCNews清华大学通用文本分类中文包含74万篇新闻文档THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
31C3康奈尔大学·腾讯人工智能实验室通用阅读理解中文含 13,369 个文档及其相关的 19,577 个从中文收集的自由形式选择题C3 是一个自由形式的多选中文机器阅读理解数据集。我们展示了第一个自由形式的多选中文机器阅读理解数据集(C^3),包含 13,369 个文档(对话或更正式的混合体裁文本)及其相关的 19,577 个从中文收集的自由形式选择题-作为第二语言的考试。我们对这些现实世界问题所需的先验知识(即语言、特定领域和一般世界知识)进行了全面分析。我们实施了基于规则和流行的神经方法,发现性能最佳的模型 (68.5%) 和人类读者 (96.0%) 之间仍然存在显着的性能差距,尤其是在需要先验知识的问题上。我们进一步研究了基于英语翻译相关数据集的干扰物合理性和数据增强对模型性能的影响。
32MedDialogUniversity of California, San Diego医疗对话生成多语言包含中文数据集340万条医患对话,英文数据集120条对话MedDialog 数据集(中文)包含医生和患者之间的对话(中文)。它有 110 万条对话和 400 万条话语。
33FCGEC浙江大学和华为通用中文语料中文由 41,340 个句子组成2022 年由浙江大学和华为联合发布。FCGEC 用于检测、识别和纠正 语法错误,是一个人工标注的多参考语料库,由 41,340 个句子组成,主要来自公立学校语 文考试中的选择题。
34MATINF武汉大学·密歇根大学母婴护理对话生成中文收集了近 200 万对 问答对,数据清洗后,用剩余的 107 万个条目构建。于 2020 年由武汉大学和密歇根大学联合发布。MATINF 是一个联合标注 的大规模数据集,用于中文母婴护理领域的分类、问答和总结。数据集中的一个条目包括 四个字段:问题、描述、类别和答案。从中国大型母婴护理 QA 网站收集了近 200 万对 问答对,其中包含细粒度的人工标记类,数据清洗后,用剩余的 107 万个条目构建。
35ODSQA台湾大学通用阅读理解中文包含来自 20 位不同演讲者的三千多个问题ODSQA 数据集是用于中文问答的口语数据集。它包含来自 20 位不同演讲者的三千多个问题。
36DRCD台达研究中心·台达电子通用阅读理解中文来自 2108 篇维基百科文章的 10014 个段落和由注释者生成的 33,941 个问答对。于 2018 年由台达研究中心和台达电子联合发布。一个开放领域的传统中文 机器阅读理解数据集,包含来自 2108 篇维基百科文章的 10014 个段落和由注释者生成的 33,941 个问答对。
37中文症状库华东理工大学医疗知识图谱中文三元组数量 617,499,实体数量 135,485这是一个包含症状实体和症状相关三元组的数据集。中文症状库的数据来自8个主流的健康咨询网站、3个中文百科网站和电子病历。它还包含了中文症状与UMLS中概念的链接结果。
38医疗知识图谱数据(ownthink)OpenKG医疗知识图谱中文四十八万医疗数据四十八万医疗数据
39XiaChuFang Recipe Corpus清华大学·百度·北京通用人工智能研究院食谱中文语料中文包含1,520,327种中国食谱。其中,1,242,206食谱属于30,060菜肴。一道菜平均有41.3个食谱。完整的食谱语料库包含1,520,327种中国食谱。其中,1,242,206食谱属于30,060菜肴。一道菜平均有41.3个食谱。食谱的平均长度是224个字符。最大长度为62,722个字符,最小长度为10个字符。食谱由415,272位作者贡献。
40RACE卡内基梅隆大学通用阅读理解英文由 27,933 个段落和 97,867 个英语考试题目组成ReAding Comprehension dataset from Exams (RACE) 数据集是一个机器阅读理解数据集,由 27,933 个段落和 97,867 个英语考试题目组成,针对 12-18 岁的中国学生。 RACE 由分别来自中学和高中考试的两个子集 RACE-M 和 RACE-H 组成。 RACE-M 有 28,293 个问题,RACE-H 有 69,574 个问题。每个问题与 4 个候选答案相关联,其中一个是正确的。 RACE 的数据生成过程与大多数机器阅读理解数据集不同 - RACE 中的问题不是通过启发式或众包来生成问题和答案,而是专门为测试人类阅读技能而设计的,并且由领域专家创建。
41Dahoas-rm-static/通用RM训练英文//
42人类反馈强化学习数据集ColossalChat通用强化学习中英文包含约100000对英语和汉语问答。ColossalChat发布了一个双语数据集,包含约100000对英语和汉语问答。该数据集是从社交媒体平台上的真实问题场景中收集和清理的,用作种子数据集,并使用自学技术进行扩展,标注成本约为900美元。与其他自学方法生成的数据集相比,该数据集包含了更真实、更多样的种子数据,并涵盖了更广泛的主题。该数据集适用于微调和RLHF训练。通过提供高质量的数据,ColossalChat可以实现更好的对话互动,也可以支持中文。
43news2016zh/通用中文语料中文包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。

数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万,不提供下载。

这里的数据集来源:

1. 海量人工智能数据集,支撑人工智能研究与应用开发-OpenDataLab-有影响力的数据开源开放平台,公开数据集触手可及​​​​​​icon-default.png?t=N7T8https://openxlab.org.cn/datasets?lang=zh-CN

2.中文NLP数据集个人整理GitHub - OYE93/Chinese-NLP-Corpus: Collections of Chinese NLP corpusCollections of Chinese NLP corpus. Contribute to OYE93/Chinese-NLP-Corpus development by creating an account on GitHub.icon-default.png?t=N7T8https://github.com/OYE93/Chinese-NLP-Corpus/tree/master 

3 中文NLP数据集个人整理GitHub - crownpku/Awesome-Chinese-NLP: A curated list of resources for Chinese NLP 中文自然语言处理相关资料A curated list of resources for Chinese NLP 中文自然语言处理相关资料 - GitHub - crownpku/Awesome-Chinese-NLP: A curated list of resources for Chinese NLP 中文自然语言处理相关资料icon-default.png?t=N7T8https://github.com/crownpku/Awesome-Chinese-NLP#corpus-%E4%B8%AD%E6%96%87%E8%AF%AD%E6%96%99

4.比赛及其它渠道。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值