北京智源人工智能研究院信息检索与知识计算组构建并对外发布数据集MTP(Massive Text Pairs)。MTP由总计3亿条中英文关联文本对构成;其中,中文记录达1亿条,英文数据达2亿条。MTP为迄今开源的最大规模中英文关联文本对数据集,为训练中英文语义向量模型提供了重要的基础。
Data Description/数据概况
通过对现有可用的中英文网络文本数据进行收集、整理,我们最终获得了总计3亿条的文本对数据(1.3TB),其中英文文本对2亿条(634GB),中文文本对1亿条(666GB)。
- Chinese:
Dataset | Pairs |
---|---|
wudao | (title, passage) |
cmrc2018 | (query, context) |
dureader | (query, context) |
simclue | (sentence_a, sentence_b) |
csl | (title, abstract) |
amazon_reviews_multi | (title, body) |
wiki_atomic_edits | (base_sentence, edited_sentence) |
mlqa | (question, context) |
xlsum | (title, summary) (title, text) |
Misc* | (query, answer), (title, passage) |
*: 这部分文本对来自于Wudao Corpora之外新增的互联网数据,包括社区问答、新闻、文献类型的数据。
Dataset | Pairs |
---|---|
sentence-transformers Data | – |
wikipedia | (title + section title, passage) |
cc-net | (title, passage) |
stackexchange | (title, upvoted answer) (title+body, upvoted answer) |
(title, body) | |
S2orc | (title, abstract) (title, citation title) (abstract, citation abstract) |
Data Format/数据集格式
中英文数据分别是一个json文件,其中每一行都是一个字典,如下所示:
{"query": str, "pos": List[str], "neg":List[str]}
其中query是查询语句,pos是正样本列表,neg是负样本列表。
Copyright/数据版权说明
MTP数据集仅用于学术研究,要使用本数据集,请阅读并遵守本平台的《数据使用协议》。本平台不拥有这些数据的版权,使用者对数据的任何操作需承担全部责任,不得私自传播、恶意使用。如果数据的版权受到侵犯,请联系我们进行删除。
Related Project/关联项目
[1] https://github.com/FlagOpen/FlagEmbedding
[2] https://huggingface.co/BAAI/
[3] https://huggingface.co/C-MTEB
Reference/参考文献
[1] RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder
[2] RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training Retrieval-Oriented Language Models
GitHub - FlagOpen/FlagEmbedding: Retrieval and Retrieval-augmented LLMs