自己整理的一些NLP数据集【不定期更新】

最新推荐文章于 2024-06-12 09:34:14 发布

Quentin_nb

最新推荐文章于 2024-06-12 09:34:14 发布

阅读量751

点赞数 1

文章标签： 1024程序员节人工智能

本文链接：https://blog.youkuaiyun.com/Quentin_nb/article/details/134005155

版权

本文概述了多个来自不同领域的数据集，包括通用知识图谱、医疗事件图谱、法律阅读理解、中文SQuAD、中医问题生成、金融文本分类等，涵盖了自然语言处理、阅读理解、命名实体识别等多个技术方向，展示了AI研究和应用的重要资源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

序号	数据集名称	数据来源	领域	适用任务	语言	数量	简介
1	通用知识图谱数据集	OpenKG	通用	知识图谱	中文	1.4亿	ownthink开源了史上最大规模1.4亿知识图谱数据集，数据是以（实体、属性、值），（实体、关系、实体）混合的形式组织，数据格式采用csv格式。
2	病人事件图谱数据集	华东理工大学	医疗	知识图谱	中文	3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念	病人事件图谱是一种新的基于RDF的医疗观察性数据表示模型，可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。使用三家上海三甲医院的电子病历数据，构建了包括3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。
3	herbnet数据集	中国中医科学院中医药信息研究所	医疗	知识图谱	中文	/	面向中药研究，根据中药领域模型的特点，构建了一个包括中医疾病，方剂，中药，中药化学成分，药理作用，中药实验，化学实验方法在内的中药本体。进而，基于本体实现了一系列数据库的集成，从而构建了一个中药知识图谱。
4	cail2020	第三届“中国法研杯”司法人工智能挑赛(CAIL2020)	法律	阅读理解	中文	一部分为去年的CJRC训练集，一部分为重新标注的约3000个问答对，其中民事、刑事、行政各1000个问答对，均为需要多步推理的问题类型。验证集和测试集各约3000个问答对	本任务技术评测训练集包括两部分，一部分为去年的CJRC训练集，一部分为重新标注的约3000个问答对，其中民事、刑事、行政各1000个问答对，均为需要多步推理的问题类型。验证集和测试集各约3000个问答对，同样均为需要多步推理的问题类型
5	CMRC2018	哈尔滨工业大学·科大讯飞研究院·科大讯飞人工智能研究	通用	阅读理解	中文	CMRC 是一个由人类专家注释的数据集，包含近 20,000 个问题以及一个具有挑战性的集合，该集合由需要对多个线索进行推理的问题组成。	CMRC2018数据集是华语界出名的中文SQuAD数据集
6	dureader	百度	通用	阅读理解	中文	包含了20万个问题、100万个文档和超过42万个人类总结的答案	DuReader,一个新的大型开放中文机器阅读理解数据集。 DuReader 与以前的 MRC 数据集相比有三个优势: 数据来源:问题和文档均基于百度搜索和百度知道; 答案是手动生成的
7	squad1.1	斯坦福大学	通用	阅读理解	中文	包含 10 万个(问题,原文,答案)三元组	SQuAD 是由 Rajpurkar等人提出的一个抽取式QA数据集 [闭集]。该数据集包含 10 万个(问题,原文,答案)三元组,原文来自于 536 篇维基百科文章
8	squad2	斯坦福大学	通用	阅读理解	中文	组合了SQuAD1.1中的10万个问题，并增加了超过5万个无法回答的问题	SQuAD 是由 Rajpurkar等人提出的一个抽取式QA数据集 [闭集]。该数据集包含 10 万个(问题,原文,答案)三元组,原文来自于 536 篇维基百科文章
9	中医问题生成数据集	天池比赛	医疗	问题生成	中文	/	中医问题生成数据集
10	AFQMC	天池比赛	金融	文本分类	中文	总样本数为：38650	蚂蚁金融语义相似度数据集,用于问题相似度计算
11	Chinese-MNLI	CLUE	通用	文本分类	中文	训练验证测试：550k 10k 10k	中文自然语言推理数据集（A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset）本数据及通过翻译加部分人工修正的方法，从英文原数据集生成，可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。
12	Chinese-SNLI	CLUE	通用	文本分类	中文	训练验证测试：390k 12k 13k	中文自然语言推理数据集（A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset）本数据及通过翻译加部分人工修正的方法，从英文原数据集生成，可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。
13	Chinese-STS-B	CLUE	通用	文本分类	中文	训练验证测试：5.7k 1.5k 1.3k	中文自然语言推理数据集（A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset）本数据及通过翻译加部分人工修正的方法，从英文原数据集生成，可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。
14	CINLID	/	通用	文本分类	中文	收集了91,247个由人工撰写的成语对	中文成语语义推理数据集
15	LCQMC	哈尔滨工业大学	通用	文本分类	中文	总样本数为:260068	中文问答匹配数据集
16	OCNLI	CLUE	通用	文本分类	中文	OCNLI包含5万余训练数据,3千验证数据及3千测试数据	原生中文自然语言推理数据集，是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。
17	PAWS-X	谷歌	通用	文本分类	中文	23659组PAWS扩展句子对、296406组机器翻译的训练对	谷歌发布的同义句识别数据集，中文部分包含了释义对和非释义对，即识别一对句子是否具有相同的释义（含义），特点是具有高度重叠词汇，重点考察模型对句法结构的理解能力
18	PKU-Paraphrase-Bank	北京大学	通用	文本分类	中文	509832 组句子对，平均每句 23.05 个词	北大中文文本复述数据集
19	weibo_senti_100k	新浪微博	通用	文本分类	中文	100k,正负面评论约各50k	10 万多条，带情感标注新浪微博，正负向评论约各 5 万条
20	TriviaQA	华盛顿大学·艾伦人工智能研究所	通用	阅读理解	英文	包括来自维基百科和网络的 662K 文档中的 950K 问答对	TriviaQA 是一个现实的基于文本的问答数据集，其中包括来自维基百科和网络的 662K 文档中的 950K 问答对。该数据集比斯坦福问答数据集（SQuAD）等标准 QA 基准数据集更具挑战性，因为问题的答案可能无法通过跨度预测直接获得，而且上下文很长。 TriviaQA 数据集由人工验证和机器生成的 QA 子集组成。
21	Douban_Conversation_Corpus	北京航空航天大学·南开大学·Microsoft Research	通用	阅读理解	中文	训练验证测试：1m 50k 10k	豆瓣会话语料库，包括一个训练数据集、一个开发集和一个基于检索的聊天机器人的测试集。豆瓣会话语料统计如下表所示。训练验证测试会话响应对 1m 50k 10k 平均每个会话的积极响应 1 1 1.18 无情河童不适用不适用 0.41 每次会话的最小转数 3 3 3 每个会话的最大值 98 91 45 每次会话的平均转数 6.69 6.75 5.95 每个话语的平均字数 18.56 18.50 20.74 测试数据包含 1000 个对话上下文，对于每个上下文，我们创建 10 个响应作为候选。我们招募了三名标注员来判断候选人是否对会议做出了适当的回应。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签，大部分标签被视为最终决定。据我们所知，这是第一个用于基于检索的聊天机器人的人工标记测试集。
22	Weibo_NER	约翰霍普金斯大学	通用	命名实体识别	中文	/	微博NER数据集是取自社交媒体网站新浪微博的中文命名实体识别数据集。
23	MCSCSet	中山大学,Mila – Quebec Artifcial Intelligence Institute,清华大学深圳国际研究生院,腾讯天衍实验室	医疗	中文语料	中文	这是一个包含约20万个样本的大规模专家注释数据集	这是一个大型的专家注释数据集，专门用于医学领域的中文拼写校正 (MCSC)。与现有的开放域CSC数据集相比，MCSCSet涉及: i) 从腾讯一点收集的大量真实医学查询，ii) 由医学专家手动注释的相应拼写错误的句子。我们的资源进一步提供了医学领域的混淆集，其中包括医学中常见的易出错字符及其相应的拼写错误。
24	DuRecDial	哈尔滨工业大学·百度	通用	中文语料	中文	大约 10k 个对话，156k 个话语	一个人对人的中文对话数据集（大约 10k 个对话，156k 个话语），其中包含针对每对推荐寻求者（用户）和推荐者（机器人）的多个顺序对话。
25	MSRANER	微软亚洲研究院	通用	命名实体识别	中文	训练45k，测试3.5k	MSRANER是由微软亚洲研究院标注的新闻领域的实体识别数据集
26	baike2018qa	brightmart	通用	阅读理解	中文	含有150万个预先过滤过的、高质量问题和答案，每个问题属于一个类别。总共有492个类别，其中频率达到或超过10次的类别有434个。	含有150万个预先过滤过的、高质量问题和答案，每个问题属于一个类别。总共有492个类别，其中频率达到或超过10次的类别有434个。
27	维基百科(wiki2019zh)	brightmart	通用	中文语料	中文	100万个结构良好的中文词条	100万个结构良好的中文词条
28	CrossWOZ	清华大学·北京信息科学与技术国家研究中心	通用	任务导向对话	中文	包含 5 个领域的 6K 对话会话和 102K 话语，包括酒店、餐厅、景点、地铁和出租车	CrossWOZ是第一个面向任务的大型中文跨域Wizard-of-Oz向导数据集。它包含 5 个领域的 6K 对话会话和 102K 话语，包括酒店、餐厅、景点、地铁和出租车。此外，语料库包含丰富的对话状态注释和用户和系统双方的对话行为。
29	CMRC_2019	哈工大与科大讯飞联合实验室	通用	阅读理解	中文	10k篇章，100k问题	CMRC 2019 是一个中文机器阅读理解数据集，用于第三届中文机器阅读理解评估研讨会。具体来说，CMRC 2019 是一个句子完形填空式机器阅读理解数据集，旨在评估句子级推理能力。
30	THUCNews	清华大学	通用	文本分类	中文	包含74万篇新闻文档	THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
31	C3	康奈尔大学·腾讯人工智能实验室	通用	阅读理解	中文	含 13,369 个文档及其相关的 19,577 个从中文收集的自由形式选择题	C3 是一个自由形式的多选中文机器阅读理解数据集。我们展示了第一个自由形式的多选中文机器阅读理解数据集（C^3），包含 13,369 个文档（对话或更正式的混合体裁文本）及其相关的 19,577 个从中文收集的自由形式选择题-作为第二语言的考试。我们对这些现实世界问题所需的先验知识（即语言、特定领域和一般世界知识）进行了全面分析。我们实施了基于规则和流行的神经方法，发现性能最佳的模型 (68.5%) 和人类读者 (96.0%) 之间仍然存在显着的性能差距，尤其是在需要先验知识的问题上。我们进一步研究了基于英语翻译相关数据集的干扰物合理性和数据增强对模型性能的影响。
32	MedDialog	University of California, San Diego	医疗	对话生成	多语言	包含中文数据集340万条医患对话，英文数据集120条对话	MedDialog 数据集（中文）包含医生和患者之间的对话（中文）。它有 110 万条对话和 400 万条话语。
33	FCGEC	浙江大学和华为	通用	中文语料	中文	由 41,340 个句子组成	2022 年由浙江大学和华为联合发布。FCGEC 用于检测、识别和纠正语法错误，是一个人工标注的多参考语料库，由 41,340 个句子组成，主要来自公立学校语文考试中的选择题。
34	MATINF	武汉大学·密歇根大学	母婴护理	对话生成	中文	收集了近 200 万对问答对，数据清洗后，用剩余的 107 万个条目构建。	于 2020 年由武汉大学和密歇根大学联合发布。MATINF 是一个联合标注的大规模数据集，用于中文母婴护理领域的分类、问答和总结。数据集中的一个条目包括四个字段：问题、描述、类别和答案。从中国大型母婴护理 QA 网站收集了近 200 万对问答对，其中包含细粒度的人工标记类，数据清洗后，用剩余的 107 万个条目构建。
35	ODSQA	台湾大学	通用	阅读理解	中文	包含来自 20 位不同演讲者的三千多个问题	ODSQA 数据集是用于中文问答的口语数据集。它包含来自 20 位不同演讲者的三千多个问题。
36	DRCD	台达研究中心·台达电子	通用	阅读理解	中文	来自 2108 篇维基百科文章的 10014 个段落和由注释者生成的 33,941 个问答对。	于 2018 年由台达研究中心和台达电子联合发布。一个开放领域的传统中文机器阅读理解数据集，包含来自 2108 篇维基百科文章的 10014 个段落和由注释者生成的 33,941 个问答对。
37	中文症状库	华东理工大学	医疗	知识图谱	中文	三元组数量 617,499，实体数量 135,485	这是一个包含症状实体和症状相关三元组的数据集。中文症状库的数据来自8个主流的健康咨询网站、3个中文百科网站和电子病历。它还包含了中文症状与UMLS中概念的链接结果。
38	医疗知识图谱数据（ownthink）	OpenKG	医疗	知识图谱	中文	四十八万医疗数据	四十八万医疗数据
39	XiaChuFang Recipe Corpus	清华大学·百度·北京通用人工智能研究院	食谱	中文语料	中文	包含1,520,327种中国食谱。其中，1,242,206食谱属于30,060菜肴。一道菜平均有41.3个食谱。	完整的食谱语料库包含1,520,327种中国食谱。其中，1,242,206食谱属于30,060菜肴。一道菜平均有41.3个食谱。食谱的平均长度是224个字符。最大长度为62,722个字符，最小长度为10个字符。食谱由415,272位作者贡献。
40	RACE	卡内基梅隆大学	通用	阅读理解	英文	由 27,933 个段落和 97,867 个英语考试题目组成	ReAding Comprehension dataset from Exams (RACE) 数据集是一个机器阅读理解数据集，由 27,933 个段落和 97,867 个英语考试题目组成，针对 12-18 岁的中国学生。 RACE 由分别来自中学和高中考试的两个子集 RACE-M 和 RACE-H 组成。 RACE-M 有 28,293 个问题，RACE-H 有 69,574 个问题。每个问题与 4 个候选答案相关联，其中一个是正确的。 RACE 的数据生成过程与大多数机器阅读理解数据集不同 - RACE 中的问题不是通过启发式或众包来生成问题和答案，而是专门为测试人类阅读技能而设计的，并且由领域专家创建。
41	Dahoas-rm-static	/	通用	RM训练	英文	/	/
42	人类反馈强化学习数据集	ColossalChat	通用	强化学习	中英文	包含约100000对英语和汉语问答。	ColossalChat发布了一个双语数据集，包含约100000对英语和汉语问答。该数据集是从社交媒体平台上的真实问题场景中收集和清理的，用作种子数据集，并使用自学技术进行扩展，标注成本约为900美元。与其他自学方法生成的数据集相比，该数据集包含了更真实、更多样的种子数据，并涵盖了更广泛的主题。该数据集适用于微调和RLHF训练。通过提供高质量的数据，ColossalChat可以实现更好的对话互动，也可以支持中文。
43	news2016zh	/	通用	中文语料	中文	包含了250万篇新闻。新闻来源涵盖了6.3万个媒体，含标题、关键词、描述、正文。	包含了250万篇新闻。新闻来源涵盖了6.3万个媒体，含标题、关键词、描述、正文。数据集划分：数据去重并分成三个部分。训练集：243万；验证集：7.7万；测试集，数万，不提供下载。