数据集-文本：BAAI-MTP【由总计3亿条中英文关联文本对构成；其中，中文记录达1亿条，英文数据达2亿条】

最新推荐文章于 2025-06-06 00:15:00 发布

原创最新推荐文章于 2025-06-06 00:15:00 发布 · 590 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#BERT

数据集专栏收录该内容

38 篇文章

订阅专栏

北京智源人工智能研究院信息检索与知识计算组构建并对外发布数据集MTP（Massive Text Pairs）。MTP由总计3亿条中英文关联文本对构成；其中，中文记录达1亿条，英文数据达2亿条。MTP为迄今开源的最大规模中英文关联文本对数据集，为训练中英文语义向量模型提供了重要的基础。

Data Description/数据概况

通过对现有可用的中英文网络文本数据进行收集、整理，我们最终获得了总计3亿条的文本对数据(1.3TB)，其中英文文本对2亿条(634GB)，中文文本对1亿条(666GB)。

Chinese:

Dataset	Pairs
wudao	(title, passage)
cmrc2018	(query, context)
dureader	(query, context)
simclue	(sentence_a, sentence_b)
csl	(title, abstract)
amazon_reviews_multi	(title, body)
wiki_atomic_edits	(base_sentence, edited_sentence)
mlqa	(question, context)
xlsum	(title, summary) (title, text)
Misc*	(query, answer), (title, passage)

*: 这部分文本对来自于Wudao Corpora之外新增的互联网数据，包括社区问答、新闻、文献类型的数据。

Dataset	Pairs
sentence-transformers Data	–
wikipedia	(title + section title, passage)
cc-net	(title, passage)
stackexchange	(title, upvoted answer) (title+body, upvoted answer)
reddit	(title, body)
S2orc	(title, abstract) (title, citation title) (abstract, citation abstract)

Data Format/数据集格式

中英文数据分别是一个json文件，其中每一行都是一个字典，如下所示:

{"query": str, "pos": List[str], "neg":List[str]}

其中query是查询语句，pos是正样本列表，neg是负样本列表。

Copyright/数据版权说明

MTP数据集仅用于学术研究，要使用本数据集，请阅读并遵守本平台的《数据使用协议》。本平台不拥有这些数据的版权，使用者对数据的任何操作需承担全部责任，不得私自传播、恶意使用。如果数据的版权受到侵犯，请联系我们进行删除。

Related Project/关联项目

[1] https://github.com/FlagOpen/FlagEmbedding
[2] https://huggingface.co/BAAI/
[3] https://huggingface.co/C-MTEB

Reference/参考文献

[1] RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder
[2] RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training Retrieval-Oriented Language Models

BAAI-MTP

GitHub - FlagOpen/FlagEmbedding: Retrieval and Retrieval-augmented LLMs