transform-xl翻译

最新推荐文章于 2025-09-23 23:59:54 发布

原创

最新推荐文章于 2025-09-23 23:59:54 发布 · 1.4k 阅读

2 ·

CC 4.0 BY-SA版权

本文介绍Transformer-XL，一种解决语言模型中长期依赖问题的新架构。通过引入段落级循环机制和相对位置编码，该模型能有效利用历史信息，克服上下文碎片问题，实现更长依赖关系的建模。

1.介绍

语言建模是需要对长期依赖关系建模的重要问题之一，它具有成功的应用程序，如无监督的训练(Peters et al., 2018; Devlin et al.,2018)。然而，如何使神经网络具备在序列数据中建模长期依赖关系的能力，一直是一个挑战。递归神经网络(RNNs),尤其是LSTM(Hochreiter & Schmidhuber, 1997),已经成为语言建模的标准解决方案，并在多个基准上取得了很好的效果。尽管具有广泛的使用，RNNs由于梯度消失和梯度爆炸问题导致难以优化(Hochreiter et al., 2001)，在LSTMs中引入控制门和提督裁剪技术(Graves,
2013; Pascanu et al., 2012)也许不能有效的解决这个问题。根据经验先前的工作经验，LSTM语言模型平均使用200个上下文词汇(Khandelwal et al.,2018)，这表明了有进一步改进的余地。

另一方面，注意力机制中的长距离词对之间的直接联系可以简化优化，并使学习长期依赖关系成为可能(Bahdanau et al.,2014; Vaswani et al., 2017).。最近，Al-Rfou et al. (2018)设计了一套辅助损失用于训练深层transformer networks 用于字符级语言建模，它的表现远远超过了LSTM。尽管在Al-Rfou et al. (2018)的训练取得成功，但是是在几百个字符的分隔固定长度段上执行的，在segments之间没有任何信息流通。由于固定上下文长度，模型不能捕获任何长期依赖超过？？？？。此外，固定长度的segments是在相关句子或者其它语义边界的情况下选择一些连续的字符来创建的。因此，模型预测前几个字符缺乏必要的上下文信息，导致模型优化没有效率和不好的执行效果。我们将这个上下文问题称为上下文碎片。

为了解决上述固定长度上下文的局限性，我们提出了一种新的体系结构，Transformer-XL (meaning extra long).我们在把这个概念引入深层的自我注意力网络。特别是，我们不再从零开始计算每个新段的隐藏状态，而是重用在以前的段中获得的隐藏状态。重用的隐藏状态用作当前段的内