收藏丨20个中文语料数据集,含数学考试、公务员考题、医患对话等

20个中文语料数据集分享:助力AI与NLP发展
本文列举了20个中文语料数据集,涵盖数学问题解决、阅读理解、对话、问答等多个领域,由各大机构发布,可用于训练和提升AI模型的中文理解和处理能力。

#要想训练出具有中文语境特色的大语言模型,中文语料数据必不可少,今天给大家分享20个中文语料数据集,欢迎转发、分享,催更下一期

No.1 Math23K (Math23K for Math Word Problem Solving)

● 发布方:腾讯人工智能实验室

● 发布时间:2017

● 简介
Math23K 是为解决数学单词问题而创建的数据集,包含从互联网上爬取的 23,162 个中文问题。

● 下载地址
https://opendatalab.org.cn/Math23K

● 论文地址
https://aclanthology.org/D17-1088.pdf

No.2 Ape210K

● 发布方:猿辅导 AI Lab,西北大学

● 发布时间:2020

● 简介
Ape210K是一个新的大规模和模板丰富的数学单词问题数据集,包含 210K 个中国小学水平的数学问题,是最大的公共数据集 Math23K 的 9 倍(Wang et al., 2017)。每个问题都包含黄金答案和得出答案所需的方程式。 Ape210K 也具有更大的多样性,有 56K 个模板,是 Math23K 的 25 倍。我们的分析表明,解决 Ape210K 不仅需要自然语言理解,还需要常识知识。

● 下载地址
https://github.com/Chenny0808/ape210k

● 论文地址
https://arxiv.org/pdf/2009.11506v1.pdf

No.3 DRCD (Delta Reading Comprehension Dataset)

● 发布方:台达研究中心,台达电子

● 发布时间:2018

● 简介
一个数据集,其中包含 2,221 个来自不同学科(历史、生物学、地理和哲学)的十二年级入学考试的问题,以及来自历史在线测验的 412 个附加问题。

● 下载地址
https://opendatalab.org.cn/DRCD

● 论文地址
https://arxiv.org/ftp/arxiv/papers/1806/1806.00920.pdf

No.4 FCGEC

● 发布方:浙江大学,华为

● 发布时间:2022

● 简介
FCGEC是一个带有多个参考文献的人类注释语料库,由主要从公立学校语文考试的多选题中收集的41,340句子组成。

● 下载地址
https://opendatalab.org.cn/FCGEC

● 论文地址
https://arxiv.org//pdf/2210.12364.pdf

No.5 E-KAR (Benchmark for Explainable Knowledge-intensive Analog

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值