XLNet: Generalized Autoregressive Pretraining for Language Understanding

XLNet是一种广义自回归预训练模型,它通过最大化所有排列的预期可能性来学习双向上下文,克服了BERT的局限性。XLNet整合了Transformer-XL的创意,在20个自然语言处理任务上超越BERT,实现最先进的结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 创新点

XLNet主要解决了Bert存在的一些问题,所以在介绍XLNet前,先简单介绍一下Bert,及其问题。

1.1 BERT

凭借对双向上下文进行建模的能力,Bert在自然语言处理任务上表现优异。
Bert有两个训练任务。

训练任务1

一句话中取15%的词用[MASK][MASK][MASK]替换, 然后预测[MASK][MASK][MASK]替换的词原来是什么词。

预测[MASK][MASK][MASK]替换的词原来是什么词时,把[MAKS][MAKS][MAKS]位置对应的最终输出输入到一个softmax层(softmax层为词汇表大小)。

虽然这允许我们获得双向预训练模型,但缺点是我们在预训练和微调之间产生不匹配,因为[MASK]在微调期间不会出现。 为了缓解这种情况,我们并不总是用实际的[MASK]替换随机选择的字。

训练数据生成器随机选择15%的词进行预测。 如果选择了第i个词,我们用

  • 80%的可能用[MASK]替换选中的第i个词
  • 10%的可能随机选一个词来替换选中的第i个词
  • 10%的可能选中的第i个词保留原来的词

训练任务2

Bert存在的问题

  1. 随机mask一句话中15%的单词,忽略了被mask的单词之间的依赖性
  2. XLNet的作者认为,训练任务1的训练方法使预训练阶段和微调阶段存在差异,虽然通过一些方法缓解这种了情况,但未完全解决。

既然存在这些问题,让我们看看XLNet是怎么解决的。

1.2 XLNet创新点

XLNet,一种广义自回归预训练方法。

  1. 通过最大化因子分解顺序的所有排列的预期可能性来学习双向上下文。
  2. 由于其自回归公式,克服了BERT的局限性。
  3. XLNet将最先进的自回归模型Transformer-XL的创意整合到预训练中。

XLNet在20个任务上的表现优于BERT,通常大幅度提升,并在18个任务中实现最先进的结果,包括问答,自然语言推理,情感分析和文档排名。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值