数据集-文本:BAAI-MTP【由总计3亿条中英文关联文本对构成;其中,中文记录达1亿条,英文数据达2亿条】

北京智源人工智能研究院信息检索与知识计算组构建并对外发布数据集MTP(Massive Text Pairs)。MTP由总计3亿条中英文关联文本对构成;其中,中文记录达1亿条,英文数据达2亿条。MTP为迄今开源的最大规模中英文关联文本对数据集,为训练中英文语义向量模型提供了重要的基础。

Data Description/数据概况

通过对现有可用的中英文网络文本数据进行收集、整理,我们最终获得了总计3亿条的文本对数据(1.3TB),其中英文文本对2亿条(634GB),中文文本对1亿条(666GB)。

  • Chinese:
DatasetPairs
wudao(title, passage)
cmrc2018(query, context)
dureader(query, context)
simclue(sentence_a, sentence_b)
csl(title, abstract)
amazon_reviews_multi(title, body)
wiki_atomic_edits(base_sentence, edited_sentence)
mlqa(question, context)
xlsum(title, summary) (title, text)
Misc*(query, answer), (title, passage)

*: 这部分文本对来自于Wudao Corpora之外新增的互联网数据,包括社区问答、新闻、文献类型的数据。

DatasetPairs
sentence-transformers Data
wikipedia(title + section title, passage)
cc-net(title, passage)
stackexchange(title, upvoted answer) (title+body, upvoted answer)
reddit(title, body)
S2orc(title, abstract) (title, citation title) (abstract, citation abstract)

Data Format/数据集格式

中英文数据分别是一个json文件,其中每一行都是一个字典,如下所示:

{"query": str, "pos": List[str], "neg":List[str]}

其中query是查询语句,pos是正样本列表,neg是负样本列表。

Copyright/数据版权说明

MTP数据集仅用于学术研究,要使用本数据集,请阅读并遵守本平台的《数据使用协议》。本平台不拥有这些数据的版权,使用者对数据的任何操作需承担全部责任,不得私自传播、恶意使用。如果数据的版权受到侵犯,请联系我们进行删除。

Related Project/关联项目

[1] https://github.com/FlagOpen/FlagEmbedding
[2] https://huggingface.co/BAAI/
[3] https://huggingface.co/C-MTEB

Reference/参考文献

[1] RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder
[2] RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training Retrieval-Oriented Language Models




BAAI-MTP 

GitHub - FlagOpen/FlagEmbedding: Retrieval and Retrieval-augmented LLMs 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值