Raki的读paper小记：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context-优快云博客

本文链接：https://blog.youkuaiyun.com/Raki_J/article/details/129264037

Transformer-XL是一种改进的Transformer模型，它通过段级循环和状态重用来处理长序列依赖，相比于RNN和标准Transformer，它能更好地捕捉长期依赖并显著提高处理速度。此外，模型利用相对位置编码来解决不同段间的位置信息问题，从而实现更高效的序列建模。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract&Introduction&Related Work

研究任务
不受长度限制的transformer
已有方法和相关工作
没有基于transformer的方法，都是基于RNN
面临挑战
创新思路
实验结论
在学习依赖上优于RNN 80%，普通transformer 450%，评估速度比普通transformer快1800倍

Transformer-XL

Segment-Level Recurrence with State Reuse

在训练过程中，为前一个片段计算的隐藏状态序列是固定的，并在模型处理下一个新片段时作为扩展上下文被重新使用。

定义
$\mathbf{s}_{\tau} = \left[x_{\tau, 1}, \cdots, x_{\tau, L}\right] \text { and } \mathbf{s}_{\tau+1}=\left[x_{\tau+1,1}, \cdots, x_{\tau+1, L}\right]$
隐藏层，SG代表stop-gredient
$\begin{array}{l} \widetilde{\mathbf{h}}_{\tau+1}^{n-1}=\left[\mathrm{SG}\left(\mathbf{h}_{\tau}^{n-1}\right) \circ \mathbf{h}_{\tau+1}^{n-1}\right], \\ \mathbf{q}_{\tau+1}^{n}, \mathbf{k}_{\tau+1}^{n}, \mathbf{v}_{\tau+1}^{n}=\mathbf{h}_{\tau+1}^{n-1} \mathbf{W}_{q}^{\top}, \widetilde{\mathbf{h}}_{\tau+1}^{n-1} \mathbf{W}_{k}^{\top}, \widetilde{\mathbf{h}}_{\tau+1}^{n-1} \mathbf{W}_{v}^{\top}, \\ \mathbf{h}_{\tau+1}^{n}=\text { Transformer-Layer }\left(\mathbf{q}_{\tau+1}^{n}, \mathbf{k}_{\tau+1}^{n}, \mathbf{v}_{\tau+1}^{n}\right) . \end{array}$

普通的transformer layer：
在这里插入图片描述
在隐藏层创造了segment-level的循环，与RNN不同的是，这里每段向下移动一层

最大可能的依赖是图b的面积下的点，与截断的BPTT不同的是，这里的方法缓存了一连串的隐状态，而不是最后一个，因此应该与相对位置编码技术一起应用
在这里插入图片描述
不只是前一个segment，可以与前多个segment相连

Relative Positional Encodings

当重用之前的state信息的时候，保持他们的位置信息也是非常重要的，如果依旧使用绝对位置编码，会出现两个segment用了同样的位置的情况，但实际上却差了一个segment的长度，这样会使模型无法区分他们的位置信息
$\begin{array}{c}\mathbf{h}_{\tau+1}=f(\mathbf{h}_{\tau},\mathbf{E}_{\tau+1}+\mathbf{U}_{1:L})\\ \mathbf{h}_{\tau}=f(\mathbf{h}_{\tau-1},\mathbf{E}_{\mathbf{s}_{\tau}}+\mathbf{U}_{1:L}),\end{array}$

绝对位置编码：
$\begin{array}{c}\mathbf{A}_{i,j}^{q\text{is}}=\underbrace{\mathbf{E}_{x_{i}}^{\top}\mathbf{W}_{q}^{\top}\mathbf{W}_{k}\mathbf{E}_{x_{j}}}_{(a)}+\underbrace{\mathbf{E}_{x_{i}}^{\top}\mathbf{W}_{q}^{\top}\mathbf{W}_{k}\mathbf{U}_{j}}_{(b)}+\underbrace{\mathbf{U}_{i}^{\top}\mathbf{W}_{q}^{\top}\mathbf{W}_{k}\mathbf{E}_{x_{j}}}_{(c)}+\underbrace{\mathbf{U}_{i}^{\top}\mathbf{W}_{q}^{\top}\mathbf{W}_{k}\mathbf{U}_{j}}_{(d)}.\end{array}$

相对位置编码：
把所有的 $U_j$ 都换成了 $\color{Cyan}{R_{i-j}}$ 一个正弦波编码矩阵
$\color{red}u^\top$ 和 $\color{red}v^\top$ 是可训练参数
$\mathbf{A}_{i,j}^{\mathrm{rel}}=\underbrace{\mathbf{E}_{x_i}^{\top}\mathbf{W}_q^{\top}\mathbf{W}_{k,E}\mathbf{E}_{x_j}}_{(a)}+\underbrace{\mathbf{E}_{x_i}^{\top}\mathbf{W}_q^{\top}\mathbf{W}_{k,R}\color{Cyan}\mathbf{R}_{i-j}}_{(b)} +\underbrace{{\color{red}u^\top}\mathbf{W}_{k,E}\mathbf{E}_{x_j}}_{(c)}+\underbrace{{\color{red}{v^\top}} \mathbf{W}_{k,R}\color{Cyan}\mathbf{R}_{i-j}}_{(d)}.$

Transformer-XL的总公式
$\begin{array}{c}\widetilde{\mathbf{h}}_{\tau}^{n-1}=\left[\mathrm{SG}(\mathbf{m}_{\tau}^{n-1})\circ\mathbf{h}_{\tau}^{n-1}\right]\\ \mathbf{q}_{\tau}^{n},\mathbf{k}_{\tau}^{n},\mathbf{v}_{\tau}^{n}=\mathbf{h}_{\tau}^{n-1}\mathbf{W}_{q}^{n}{}^{\top},\widetilde{\mathbf{h}}_{\tau}^{n-1}\mathbf{W}_{k,E}^{n}{}^{\top},\widetilde{\mathbf{h}}_{\tau}^{n-1}\mathbf{W}_{v}^{n}{}^{\top}\end{array}\\ \begin{array}{c}\mathbf{A}^n_{\tau,i,j}=\mathbf{q}^n_{\tau,i}{}^{\top}\mathbf{k}^n_{\tau,j}+\mathbf{q}^n_{\tau,i}{}^{\top}\mathbf{W}^n_{k,R}\mathbf{R}_{i-j}\\ +u^{\top}\mathbf{k}_{\tau,j}+v^{\top}\mathbf{W}^n_{k,R}\mathbf{R}_{i-j}\end{array}\\ \begin{array}{l}\mathbf{a}_{\tau}^{n}=\mathbf{Masket-Softmax}(\mathbf{A}_{\tau}^{n})\mathbf{v}_{\tau}^{n}\\ \mathbf{o}_{\tau}^{n}=\mathbf{layerNorm}(\mathbf{Linear}(\mathbf{a}_{\tau}^{n})+\mathbf{h}_{\tau}^{n-1})\\ \mathbf{h}_{\tau}^{n}=\mathbf{Positionwise-Feed-Forward}(\mathbf{a}_{\tau}^{n})\end{array}$