数据集名称 | 数据集简介(包含用途、用法、字段含义等) | 数据集文件名称或下载链接 | 类别(公共或自研) | 领域(非必填) |
Stanford Question Answering Dataset (SQuAD) | SQuAD 是斯坦福大学于2016年推出的数据集,阅读理解数据集,给定一篇文章,准备相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,数据集的量为当今其他数据集(例如,WikiQA)的几十倍之多。一共有107,785问题,以及配套的 536 篇文章。 | https://rajpurkar.github.io/SQuAD-explorer/ | 公共 | 自然语言处理(问答系统) |
facebook babi task | bAbI task是Facebook提出的关于文本推理的数据集,它们是一组综合语言任务,包含了20个任务,旨在测试各种推理能力,如演绎、归纳、共指、空间和时间推理等。 | https://github.com/facebook/bAbI-tasks | 公共 | 自然语言处理(问答系统) |
MS MARCO | 人工生成的机器阅读理解数据集,来自微软,2016 | http://www.msmarco.org/ | 公共 | 自然语言处理(问答系统) |
自然语言处理数据集收集
最新推荐文章于 2025-06-04 19:11:37 发布