目录
一、前言
对于跨语言理解及与稀缺语言相关的迁移学习而言,一个评测数据集不可或缺。2018年,Facebook的提出了XNLI(Cross-Lingual Natural Language Inference)这个数据集,旨在提供一个统一的评测数据集以方便相关研究。NLI,也就是文本蕴涵,是自然语言理解(NLU)中的一项重要的基准任务,该任务是为了判断两句话之间的关系是否是蕴含(entailment)、矛盾(contradiction)和中立(neutral)三种中的一种。在论文中,Facebook还提出包括多个机器翻译任务、词袋及LSTM编码器在内的baseline。关于XNLI更多内容可参考Facebook论文:XNLI: Evaluating Cross-lingual Sentence Representations。
二、XNLI介绍
- 源数据集获取:
XNLI支持15种语言,数据集包含10个领域,分别是:Face-To-Face, Telephone, Government, 9/11, Letters, Oxford University Press (OUP), Slate, Verbatim, Government and fiction. 前九项来自开放美国国家语料库,fiction来自英文小说《Captain Blood》。每个领域包含750条样本,10个领域共计7500条人工标注的英文测试样本,组成了112500对英文--其他语种的标注对。每条数据样本,由两个句子组成,分别是前提和假设,前提和假设之间的关系,有entailment(蕴含)、contradiction(矛盾)、neutral(中立)三类,在标注过程中,XNLI的开发者使用了精细的投票规则,最大程度保证标注结果是无偏的。

本文深入介绍了XNLI数据集,探讨其在跨语言理解和稀缺语言迁移学习中的作用。XNLI由Facebook于2018年发布,涵盖15种语言,旨在评估跨语言句子表示。文章详细解释了XNLI的构建过程、评测任务和实验结果。
最低0.47元/天 解锁文章
1237





