自己整理的一些NLP数据集【不定期更新】

本文概述了多个来自不同领域的数据集,包括通用知识图谱、医疗事件图谱、法律阅读理解、中文SQuAD、中医问题生成、金融文本分类等,涵盖了自然语言处理、阅读理解、命名实体识别等多个技术方向,展示了AI研究和应用的重要资源。
序号 数据集名称 数据来源 领域 适用任务 语言 数量 简介
1 通用知识图谱数据集 OpenKG 通用 知识图谱 中文 1.4亿 ownthink开源了史上最大规模1.4亿知识图谱数据集,数据是以(实体、属性、值),(实体、关系、实体)混合的形式组织,数据格式采用csv格式。
2 病人事件图谱数据集 华东理工大学 医疗 知识图谱 中文 3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念 病人事件图谱是一种新的基于RDF的医疗观察性数据表示模型,可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。使用三家上海三甲医院的电子病历数据,构建了包括3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。
3 herbnet数据集 中国中医科学院中医药信息研究所 医疗 知识图谱 中文 / 面向中药研究,根据中药领域模型的特点,构建了一个包括中医疾病,方剂,中药, 中药化学成分,药理作用,中药实验,化学实验方法在内的中药本体。 进而,基于本体实现了一系列数据库的集成,从而构建了一个中药知识图谱。
4 cail2020 第三届“中国法研杯”司法人工智能挑赛(CAIL2020) 法律 阅读理解 中文 一部分为去年的CJRC训练集,一部分为重新标注的约3000个问答对,其中民事、刑事、行政各1000个问答对,均为需要多步推理的问题类型。验证集和测试集各约3000个问答对 本任务技术评测训练集包括两部分,一部分为去年的CJRC训练集,一部分为重新标注的约3000个问答对,其中民事、刑事、行政各1000个问答对,均为需要多步推理的问题类型。验证集和测试集各约3000个问答对,同样均为需要多步推理的问题类型
5 CMRC2018 哈尔滨工业大学·科大讯飞研究院·科大讯飞人工智能研究 通用 阅读理解 中文 CMRC 是一个由人类专家注释的数据集,包含近 20,000 个问题以及一个具有挑战性的集合,该集合由需要对多个线索进行推理的问题组成。 CMRC2018数据集是华语界出名的中文SQuAD数据集
6 dureader 百度 通用 阅读理解 中文 包含了20万个问题、100万个文档和超过42万个人类总结的答案 DuReader,一个新的大型开放中文机器阅读理解数据集。 DuReader 与以前的 MRC 数据集相比有三个优势: 数据来源:问题和文档均基于百度搜索和百度知道; 答案是手动生成的
7 squad1.1 斯坦福大学 通用 阅读理解 中文 包含 10 万 个(问题,原文,答案)三元组 SQuAD 是由 Rajpurkar等人提出的一个 抽取式QA数据集 [闭集]。该数据集包含 10 万 个(问题,原文,答案)三元组,原文来自于 536 篇维基百科文章
8 squad2 斯坦福大学 通用 阅读理解
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值