#要想训练出具有中文语境特色的大语言模型,中文语料数据必不可少,今天给大家分享20个中文语料数据集,欢迎转发、分享,催更下一期
No.1 Math23K (Math23K for Math Word Problem Solving)
● 发布方:腾讯人工智能实验室
● 发布时间:2017
● 简介:
Math23K 是为解决数学单词问题而创建的数据集,包含从互联网上爬取的 23,162 个中文问题。
● 下载地址:
https://opendatalab.org.cn/Math23K
● 论文地址:
https://aclanthology.org/D17-1088.pdf
No.2 Ape210K
● 发布方:猿辅导 AI Lab,西北大学
● 发布时间:2020
● 简介:
Ape210K是一个新的大规模和模板丰富的数学单词问题数据集,包含 210K 个中国小学水平的数学问题,是最大的公共数据集 Math23K 的 9 倍(Wang et al., 2017)。每个问题都包含黄金答案和得出答案所需的方程式。 Ape210K 也具有更大的多样性,有 56K 个模板,是 Math23K 的 25 倍。我们的分析表明,解决 Ape210K 不仅需要自然语言理解,还需要常识知识。
● 下载地址:
https://github.com/Chenny0808/ape210k
● 论文地址:
https://arxiv.org/pdf/2009.11506v1.pdf
No.3 DRCD (Delta Reading Comprehension Dataset)
● 发布方:台达研究中心,台达电子
● 发布时间:2018
● 简介:
一个数据集,其中包含 2,221 个来自不同学科(历史、生物学、地理和哲学)的十二年级入学考试的问题,以及来自历史在线测验的 412 个附加问题。
● 下载地址:
https://opendatalab.org.cn/DRCD
● 论文地址:
https://arxiv.org/ftp/arxiv/papers/1806/1806.00920.pdf
No.4 FCGEC
● 发布方:浙江大学,华为
● 发布时间:2022
● 简介:
FCGEC是一个带有多个参考文献的人类注释语料库,由主要从公立学校语文考试的多选题中收集的41,340句子组成。
● 下载地址:
https://opendatalab.org.cn/FCGEC
● 论文地址:
https://arxiv.org//pdf/2210.12364.pdf
20个中文语料数据集分享:助力AI与NLP发展

本文列举了20个中文语料数据集,涵盖数学问题解决、阅读理解、对话、问答等多个领域,由各大机构发布,可用于训练和提升AI模型的中文理解和处理能力。
最低0.47元/天 解锁文章
5259

被折叠的 条评论
为什么被折叠?



