【论文阅读笔记】Cross-lingual Language Model Pretraining

最新推荐文章于 2024-01-25 01:54:28 发布

原创最新推荐文章于 2024-01-25 01:54:28 发布 · 4.7k 阅读

6 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

96 篇文章

订阅专栏

Facebook推出的XLM模型在跨语言预训练领域取得重大突破，实验显示在XNLI、无监督及有监督机器翻译任务上超越现有最佳水平。XLM包含MLM、CLM和TLM三种模型，通过跨语言单词嵌入预训练，显著提升了无监督机器翻译性能。

本文是FaceBook AI Team在2019年一月发布的文章。

近一年来，NLP领域发展势头强劲，从ELMO到LSTM再到去年最牛叉的Google Bert，在今年年初，Facebook又推出了XLM模型，在跨语言预训练领域表现抢眼。实验结果显示XML在XNLI任务上比原来的state-of-the-art直接高了4.9个百分点；在无监督机器翻译WMT’16 German-English中，比原来的state-of-the-art高了9个BLEU；在有监督的机器翻译WMT’16 Romanian-English中，比原来的state-of-the-art高了4个BLEU。

【摘要】

最近的研究已经证明了生成预训练对于英语自然语言理解的有效性。在这项工作中，我们将这种方法扩展到多种语言并展示跨语言预训练的有效性。我们提出了两种学习跨语言语言模型（XLM）的方法：一种是无监督方式，只依赖于单语言数据，另一种是监督，利用新的跨语言语言模型目标来利用并行数据。我们获得了关于跨语言分类，非监督和监督机器翻译的最新结果。

【跨语言模型】

文中第三部分主要解释三个模型MLM，CLM和TLM

1.Shared sub-word vocabulary

以前的研究表明，对于共享相同的字母、数字符号的语言，使用Byte Pair Encoding (BPE)能够显著的提升嵌入空间的对齐效果。本文学习在单语料库中从随机多项式分布中采样句子进行BPE学习。

2.Causal Language Modeling (CLM)

使用Transformer在给定前序词语的情况下预测下一个词的概率。

3.Masked Language Modeling (MLM)

本文的方法与Devlin等人的MLM之间的差异在于使用任意数量的句子（截断为256个token）而不是使用句子对。对比较频繁的输出采用与频率倒数的平方根成正比的权重从多项式分布中进行子采样。

4.Translation Language Modeling (TLM)

本文的TLM是对MLM的扩展，直接连接平行的句子而不是只考虑单语言的文本流。在源句子和目标句子中随机掩盖一部分词语。这样为了预测在英语句子中掩盖的单词，该模型可以倾向于周围的英语单词或法语翻译，鼓励模型对齐英语和法语表示。也就是说，如果英语单词不足以推断出蒙面的英语单词，那么该模型可以利用法语语境（个人认为这点比较有想法）。为了便于对齐，还重置了目标句子的位置。本文提出的TLM如下，结合了BERT和MLM：