看这篇阅读笔记之前,可以看一下以下这篇前言,不仅从performance方面分析了XLNet的效果,也从算力和时间消耗方面分析该工作:一份有趣的 XLNet 阅读笔记前言
摘要(Abstract)
与基于自回归语言建模(AR LM)的预训练语言建模方法相比,基于降噪自编码的预训练方法具有良好的双向上下文建模能力。然而,由于依赖于使用Masked tokens 破坏输入,BERT忽略了掩码位置之间的依赖关系,并出现了pretrain-finetune 差异。针对这些优缺点,我们提出了XLNet,这是一种广义的自回归预训练方法: (1)通过最大化因子分解顺序所有排列的期望可能性来实现双向上下文的学习,(2)通过自回归公式克服了BERT的局限性。此外,XLNet还将来自Transformer-XL(最先进的自回归模型)的思想集成到该预训练工作中。从经验上看,XLNet在20项任务中表现优于BERT,并且在18项任务中取得了最先进的结果,包括问题回答、自然语言推理、情感分析和文档排序。
引言(Introduction)
无监督表示学习在自然语言处理领域非常成功[7,19,24,25,10]。通常,这些方法首先在大规模标记的文本语料库上预先训练神经网络,然后对下游任务的模型或表示进行微调。在这个共享的高层次思想下,文献中探讨了不同的无监督预训练目标。其中,自回归(AR)语言建模和自动编码(AE)是两个最成功的预训练目标.
AR语言建模试图用自回归模型估计文本语料库的概率分布[7,24,25]。具体地,给定文本序列 ,AR语言建模将可能性分解为前向乘积
或后向乘积
。训练参数模型(例如,神经网络)以模拟每个条件分布。由于AR语言模型仅被训练为编码单向文本(向前或向后),因此在建模深度双向上下文时无效。相反,下游语言理解任务通常需要双向上下文信息。这导致AR语言建模与有效预训练之间存在差距。
相比之下,基于AE的预训练不执行显式密度估计,而是旨在从输入重构原始数据。一个值得注意的例子是BERT [10],它采用了最先进的预训练方法。给定输入令牌序列,令牌的某一部分被特殊符号[MASK]替换,并且训练模型以从损坏的版本恢复原始令牌。由于密度估计不是目标的一部分,因此允许BERT利用双向上下文进行重建。作为一个直接的好处,这关闭了AR语言建模中的双向信息差距,从而提高了性能。然而,在训练期间,BERT在预训练时使用的[MASK]等人工符号在实际数据中不存在,从而导致预训练的网络差异。此外,由于预测的令牌在输入中重新掩盖,因此BERT无法使用乘积规则对联合概率进行建模,如在语言建模中一样。换句话说,BERT假设预测的tokens与给定的未掩盖的tokens相互独立&#