| 序号 | 数据集名称 | 数据来源 | 领域 | 适用任务 | 语言 | 数量 | 简介 |
| 1 | 通用知识图谱数据集 | OpenKG | 通用 | 知识图谱 | 中文 | 1.4亿 | ownthink开源了史上最大规模1.4亿知识图谱数据集,数据是以(实体、属性、值),(实体、关系、实体)混合的形式组织,数据格式采用csv格式。 |
| 2 | 病人事件图谱数据集 | 华东理工大学 | 医疗 | 知识图谱 | 中文 | 3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念 | 病人事件图谱是一种新的基于RDF的医疗观察性数据表示模型,可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。使用三家上海三甲医院的电子病历数据,构建了包括3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。 |
| 3 | herbnet数据集 | 中国中医科学院中医药信息研究所 | 医疗 | 知识图谱 | 中文 | / | 面向中药研究,根据中药领域模型的特点,构建了一个包括中医疾病,方剂,中药, 中药化学成分,药理作用,中药实验,化学实验方法在内的中药本体。 进而,基于本体实现了一系列数据库的集成,从而构建了一个中药知识图谱。 |
| 4 | cail2020 | 第三届“中国法研杯”司法人工智能挑赛(CAIL2020) | 法律 | 阅读理解 | 中文 | 一部分为去年的CJRC训练集,一部分为重新标注的约3000个问答对,其中民事、刑事、行政各1000个问答对,均为需要多步推理的问题类型。验证集和测试集各约3000个问答对 | 本任务技术评测训练集包括两部分,一部分为去年的CJRC训练集,一部分为重新标注的约3000个问答对,其中民事、刑事、行政各1000个问答对,均为需要多步推理的问题类型。验证集和测试集各约3000个问答对,同样均为需要多步推理的问题类型 |
| 5 | CMRC2018 | 哈尔滨工业大学·科大讯飞研究院·科大讯飞人工智能研究 | 通用 | 阅读理解 | 中文 | CMRC 是一个由人类专家注释的数据集,包含近 20,000 个问题以及一个具有挑战性的集合,该集合由需要对多个线索进行推理的问题组成。 | CMRC2018数据集是华语界出名的中文SQuAD数据集 |
| 6 | dureader | 百度 | 通用 | 阅读理解 | 中文 | 包含了20万个问题、100万个文档和超过42万个人类总结的答案 | DuReader,一个新的大型开放中文机器阅读理解数据集。 DuReader 与以前的 MRC 数据集相比有三个优势: 数据来源:问题和文档均基于百度搜索和百度知道; 答案是手动生成的 |
| 7 | squad1.1 | 斯坦福大学 | 通用 | 阅读理解 | 中文 | 包含 10 万 个(问题,原文,答案)三元组 | SQuAD 是由 Rajpurkar等人提出的一个 抽取式QA数据集 [闭集]。该数据集包含 10 万 个(问题,原文,答案)三元组,原文来自于 536 篇维基百科文章 |
| 8 | squad2 | 斯坦福大学 | 通用 | 阅读理解 |
自己整理的一些NLP数据集【不定期更新】
最新推荐文章于 2025-05-14 15:28:28 发布
本文概述了多个来自不同领域的数据集,包括通用知识图谱、医疗事件图谱、法律阅读理解、中文SQuAD、中医问题生成、金融文本分类等,涵盖了自然语言处理、阅读理解、命名实体识别等多个技术方向,展示了AI研究和应用的重要资源。

最低0.47元/天 解锁文章
1585

被折叠的 条评论
为什么被折叠?



