XLNet论文笔记

最新推荐文章于 2024-06-27 09:54:16 发布

翻译最新推荐文章于 2024-06-27 09:54:16 发布 · 595 阅读

·

2

·

人工智能同时被 2 个专栏收录

151 篇文章

订阅专栏

51 篇文章

订阅专栏

1.简介

本文依据2020年《XLNet: Generalized Autoregressive Pretraining for Language Understanding》翻译总结而来。

Autoregressive（AR）语音模型和aotoencoding（AE）是目前最成功的两个预训练语言模型。

在这里插入图片描述

AE模型不是进行明确的概率评估，而是从破坏的输入恢复原数据。最知名的例子是BERT。给定输入，其中的一部分是被mask替换掉，模型然后被训练来恢复原数据。

XLNet两个重要改进：
1.代替使用固定的前向或者后向AR因子化顺序方法，而是基于所有可能的因子化顺序组合，最大化序列的期望概率。
2.不依靠数据损坏（AE使用的）。去除了BERT中的独立性假设。+

XLNet特点：
1.XLNet结合了AR和AE的优点，是一个一般化的AR 预训练方法。
2.XLNet因为采用Transformer-XL（优秀的AR模型）可以更加有效的处理长语句。
3.XLNet具有双向注意力机制。
4.XLNet使用组合语言模型。

XLNet在语言理解任务、阅读理解、文本识别任务、文档排行等多项领域优于BERT

2.方法

2.1AR与AE

AR模型公式如下：
在这里插入图片描述

AE模型公式如下：
在这里插入图片描述

AR\AE的区别：
1.独立性假设：如公式2，约等号表示BERT因子化时是基于独立性假设，masked tokens X ̅ 是分别独立构建的。AR模型没有独立性假设，使用乘积规则。
2.输入噪声:BERT使用损坏的输入，而AR不是。
3.上下文依赖：AR是单向的，而AE是双向的。

2.2排列语言建模

为了结合AR和AE的优点，我们提出了排列语音模型。可以双向收集信息，而又避免独立性假设和输入噪声（损坏）。

Z是长度为T的序列的所有可能排列组合。对于一个text序列X，一次只采样一个因子分解顺序z。
在这里插入图片描述

2.3双流 self-attention

在这里插入图片描述

如上图，双流一个是content 流，一个是query流。即图a和图b的结合体。公式如下：
在这里插入图片描述

部分预测：减少收敛较慢、optimization difficulty的问题。
在这里插入图片描述

2.4吸收Transformer-XL

我们的目标方程是符合AR架构的，所以可以引入优秀的AR模型-Transformer-XL。我们集成了两个重要的技术，分别是相对位置编码和分段循环机制。相对位置编码是基于原输入序列，是简单明白的。

分段循环机制是可以利用前一个分段的隐藏状态。公式如下：
在这里插入图片描述

2.5多分段

XLNet 同BERT，下游的模型支持多输入分段，例如一个问题和一个上下文段落。

BERT采用的绝对分段编码，而XLNet采用的相对分段编码，一是相对编码提升了一般化能力，二是这样更容易支持两个以上的输入分段。

2.6独立性假设讨论

如下面公式所示，在预测[New, York, is, a, city]时，BERT因为独立性假设，没有考虑(New, York)的依赖关系，而XLNet考虑了。
在这里插入图片描述

3.实验结果

3.1与BERT比较

可以看到XLNet好于BERT

在这里插入图片描述

3.2Ablation Study

Memory caching mechanism、span-based prediction 、the bidirectional input pipeline对XLNet有用。
在这里插入图片描述

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。