Transformer-XL解读(论文 + PyTorch源码)

前言

目前在NLP领域中,处理语言建模问题有两种最先进的架构:RNN和Transformer。RNN按照序列顺序逐个学习输入的单词或字符之间的关系,而Transformer则接收一整段序列,然后使用self-attention机制来学习它们之间的依赖关系。这两种架构目前来看都取得了令人瞩目的成就,但它们都局限在捕捉长期依赖性上。

为了解决这一问题,CMU联合Google Brain在2019年1月推出的一篇新论文《Transformer-XL:Attentive Language Models beyond a Fixed-Length Context》同时结合了RNN序列建模和Transformer自注意力机制的优点,在输入数据的每个段上使用Transformer的注意力模块,并使用循环机制来学习连续段之间的依赖关系。Transformer-XL在多种语言建模数据集(如单词级别的enwik8和字符级别的text8)上实现了目前的SoTA效果,且该模型在推理阶段速度更快,比之前最先进的利用Transformer进行语言建模的方法快300~1800倍。 同时,该论文也放出了其配套源码(包括TensorFlow和PyTorch的)、预训练模型及在各个数据集上训练的超参数,可以说是非常良心了~造福我等伸手党!

本文将主要针对模型原理及其PyTorch实现进行逐一对照解读,因笔者能力有限,如有不详尽之处,可移步文末的传送门进行详细阅读,并欢迎指出~

一. 回顾Transformer

在NLP领域中,一种对语言建模的最常用模型就是RNN,它可以捕捉单词之间的依赖关系。但因为梯度消失和爆炸的问题,RNN变得非常难以训练,LSTM单元和梯度裁剪方法的提出也不足以解决此类问题。同时RNN网络的计算速度往往很慢,其学习长期依赖的能力也较为有限(论文中提到,LSTM语言模型平均只能建模200个上下文词语)。

2017年6月,Google Brain在论文《Attention Is All You Need》中提出的Transformer架构,完全摒弃了RNN的循环机制,采用一种self-attention的方式进行全局处理。其接收一整段序列,并使用三个可训练的权重矩阵——Query、Key和Value来一次性学习输入序列中各个部分之间的依赖关系。Transformer网络由多个层组成,每个层都由多头注意力机制和前馈网络构成。由于在全局进行注意力机制的计算,忽略了序列中最重要的位置信息。Transformer为输入添加了位置编码(Positional Encoding),使用正弦函数完成,为每个部分的位置生成位置向量,不需要学习,用于帮助网络学习其位置信息。其示意如下图所示:
Transformer
有关Transformer的更深入讨论,可参考笔者之前的博客:

Transformer(论文 + PyTorch源码解读)

二. vanilla Transformer

为何要提这个模型?因为Transformer-XL是基于这个模型进行的改进。

Al-Rfou等人基于Transformer提出了一种训练语言模型的方法( https://arxiv.org/abs/1808.04444 ),来根据之前的字符预测片段中的下一个字符。例如,它使用 x 1 , x 2 , . . . , x n − 1 x_1, x_2, ..., x_{n-1} x1,x2,...,xn1预测字符 x n x_n xn,而在 x n x_n xn之后的序列则被mask掉。论文中使用64层模型,并仅限于处理 512个字符这种相对较短的输入,因此它将输入分成段,并分别从每个段中进行学习,如下图所示。 在测试阶段如需处理较长的输入,该模型会在每一步中将输入向右移动一个字符,以此实现对单个字符的预测。
vanilla Transformer示意图
该模型在常用的数据集如enwik8和text8上的表现比RNN模型要好,但它仍有以下两个缺点:

a. 上下文长度受限:字符之间的最大依赖距离受输入长度的限制,模型看不到出现在几个句子之前的单词。
b. 上下文碎片:对于长度超过512个字符的文本,都是从头开始单独训练的。段与段之间没有上下文依赖性,会让训练效率低下,也会影响模型的性能。
c. 推理速度慢:在测试阶段,每次预测下一个单词,都需要重新构建一遍上下文,并从头开始计算,这样的计算速度非常慢。

三. Transformer-XL

Transformer-XL架构在vanilla Transformer的基础上引入了两点创新:循环机制(Recurrence Mechanism)和相对位置编码(Relative Positional Encoding),以克服vanilla Transformer的缺点。与vanilla Transformer相比,Transformer-XL的另一个优势是它可以被用于单词级和字符级的语言建模。

1. 引入循环机制

与vanilla Transformer的基本思路一样,Transformer-XL仍然是使用分段的方式进行建模,但其与vanilla Transformer的本质不同是在于引入了段与段之间的循环机制,使得当前段在建模的时候能够利用之前段的信息来实现长期依赖性。如下图所示:
Transformer-XL示意图
在训练阶段,处理后面的段时,每个隐藏层都会接收两个输入:

  1. 该段的前面隐藏层的输出,与vanilla Transformer相同(上图的灰色线)。
  2. 前面段的隐藏层的输出(上图的绿色线),可以使模型创建长期依赖关系。

这两个输入会被拼接,然后用于计算当前段的Key和Value矩阵。对于某个段的某一层的具体计算公式如下:
引入循环机制后的计算方式
其中, τ \tau τ表示第几段, n n n表示第几层, h h h表示隐层的输出。 S G ( ⋅ ) SG(·) SG()表示停止计算梯度, [ h u ∘ h v ] [h_u \circ h_v] [huhv]表示在长度维度上的两个隐层的拼接, W . W_. W.是模型参数。乍一看与Transformer中的计算公式很像,唯一关键的不同就在于Key和Value矩阵的计算上,即 k τ + 1 n k_{\tau+1}^n kτ+1n v τ + 1 n v_{\tau + 1}^n vτ+1n,它们基于的是扩展后的上下文隐层状态 h ~ τ + 1 n − 1 \tilde{h}_{\tau+1}^{n-1} h~τ+1n1进行计算, h τ n − 1 {h}_{\tau}^{n-1} hτn1是之前段的缓存。

原则上只要GPU内存允许,该方法可以利用前面更多段的信息,测试阶段也可以获得更长的依赖。

在测试阶段,与vanilla Transformer相比,其速度也会更快。在vanilla Transformer中,一次只能前进一个step,并且需要重新构建段,并全部从头开始计算;而在Transformer-XL中,每次可以前进一整个段,并利用之前段的数据来预测当前段的输出。

2. 相对位置编码

在Transformer中,一个重要的地方在于其考虑了序列的位置信息。在分段的情况下,如果仅仅对于每个段仍直接使用Transformer中的位置编码,即每个不同段在同一个位置上的表示使用相同的位置编码,就会出现问题。比如,第 i − 2 i-2 i2段和第 i − 1 i-1 i1段的第一个位置将具有相同的位置编码,但它们对于第 i i i段的建模重要性显然并不相同(例如第 i − 2 i-2 i2段中的第一个位置重要性可能要低一些)。因此,需要对这种位置进行区分。

论文对于这个问题,提出了一种新的位置编码的方式,即会根据词之间的相对距离而非像Transformer中的绝对位置进行编码。在Transformer中,第一层的计算查询 q i T q_i^T qiT和键 k j k_j kj之间的attention分数的方式为:
Transformer的attention计算公式分解
其中, E x i E_{x_i} Exi是词 i i i的embedding, E x j E_{x_j} Exj是词 j j j的embedding, U i U_i Ui U j U_j U

### 回答1: 要在 PyTorch 中使用 Transformer-XL,你可以使用 PyTorch 的 `nn.Transformer` 类。 首先,你需要安装 PyTorch 和 torchtext。然后,你可以在你的代码中导入这些模块: ``` import torch import torchtext from torchtext.datasets import TranslationDataset, Multi30k from torchtext.data import Field, BucketIterator import spacy import random import math import time ``` 接下来,你可以定义源语言和目标语言的 `Field` 对象: ``` SEED = 1234 random.seed(SEED) torch.manual_seed(SEED) torch.backends.cudnn.deterministic = True spacy_de = spacy.load('de') spacy_en = spacy.load('en') def tokenize_de(text): """ Tokenizes German text from a string into a list of strings """ return [tok.text for tok in spacy_de.tokenizer(text)] def tokenize_en(text): """ Tokenizes English text from a string into a list of strings """ return [tok.text for tok in spacy_en.tokenizer(text)] SRC = Field(tokenize = tokenize_de, init_token = '<sos>', eos_token = '<eos>', lower = True) TRG = Field(tokenize = tokenize_en, init_token = '<sos>', eos_token = '<eos>', lower = True) ``` 然后,你可以使用 `torchtext.datasets.TranslationDataset` 类加载数据集: ``` train_data, valid_data, test_data = TranslationDataset.splits( exts=('.de', '.en'), fields=(SRC, TRG), path='path/to/data', train='train', validation='val', test='test') ``` 接着,你可以建立词汇表,并将词汇表映射到数据中: ``` SRC.build_vocab(train_data, min_freq = 2) TRG.build_vocab(train_data, min_freq = 2) device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') BATCH_SIZE = 128 train_iterator, ### 回答2: 使用Transformer-XLPyTorch中的步骤如下: 1. 首先,你需要安装PyTorch库。在PyTorch官方网站上可以找到相应的安装指南和命令。 2. 在安装完PyTorch之后,你需要确保你拥有Transformer-XL的代码和预训练模型。你可以从Hugging Face Transformers库中获取已经实现好的Transformer-XL模型,也可以从官方源码库中获取。 3. 一旦你有了Transformer-XL的代码和预训练模型,你需要导入它们并初始化一个模型实例。你可以使用PyTorch的`torch.load()`函数来加载预训练模型的参数。例如: ```python model_state_dict = torch.load("path/to/transformer-xl-model.pth") model = TransformerXLModel() model.load_state_dict(model_state_dict) ``` 4. 接下来,你需要将输入数据转换成模型可以接受的格式。Transformer-XL接受的输入是一个序列,可以是单词、字符或其他语言单元的序列。你需要将输入数据转换为对应的编码数组或矩阵。你可以使用库函数或自己编写代码来完成这个转换。 5. 当输入数据准备好后,你可以使用模型的前向传播函数来进行预测。你可以调用模型的`forward()`函数,将输入数据传给它,并得到模型的输出。例如: ```python input_data = torch.tensor([1, 2, 3, 4, 5]) # 用你的输入替换这个例子 output = model.forward(input_data) ``` 6. 最后,你可以根据模型的输出做进一步的处理,比如计算损失、分类、生成文本等。根据具体的任务和需求,你需要编写相应的代码来完成这些操作。 希望这些步骤能帮到你开始在PyTorch中使用Transformer-XL!事实上,使用Transformer-XL的具体实现可能还有其他的细节,你可以查阅官方文档、论文或参考其他资源来深入了解和应用。 ### 回答3: 使用Transformer-XLPyTorch中的步骤如下: 1. 安装PyTorch:在使用Transformer-XL之前,需要先安装PyTorch。可以根据操作系统和需求选择合适的版本进行安装。 2. 下载Transformer-XL代码库:可以从GitHub上下载Transformer-XL的代码库。找到合适的存储库并将其克隆到本地: ``` $ git clone https://github.com/kimiyoung/transformer-xl.git ``` 3. 安装依赖项:在安装完PyTorch和下载Transformer-XL代码库后,需要安装代码库的相关依赖项。可以使用以下命令安装依赖项: ``` $ cd transformer-xl $ pip install -r requirements.txt ``` 4. 数据预处理:对于Transformer-XL模型,首先需要对数据进行预处理。根据您的数据集和任务,需要编写适当的数据预处理代码。这些代码将读取数据集并将其转换为模型所需的输入。 5. 配置模型:在使用Transformer-XL之前,需要配置模型。可以使用代码库中提供的样例配置文件,在其中指定模型的参数和超参数。根据需要修改配置文件。 6. 训练模型:使用预处理好的数据和配置文件,可以开始训练Transformer-XL模型。运行以下命令启动训练过程: ``` $ python train.py --config path_to_config_file ``` 其中,`path_to_config_file`应替换为您的配置文件路径。 7. 模型推断:训练完成后,您可以使用训练得到的模型进行推断。编写适当的推断代码,加载模型并使用输入数据进行预测。 请注意,以上步骤仅提供了基本的使用Transformer-XL的指导。根据具体需求和任务,您可能需要进一步修改代码和进行调优。
评论 29
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值