Pytroch实现bert网络文本分类
本实验主要是用来指导用户如何使用pytorch来搭建经典的Bert网络,并在此基础上使用昇腾Npu硬件对Bert网络实现文本分类训练的代码实战过程。
实验介绍目录如下:
- Bert网络的主要创新点介绍
- Bert及网络搭建过程介绍
- input embeddings层
- Self-Attention
- MutiHeadAttention
- Encoder-Transformer模块
- Bert网络模型及架构分析
- Bert网络进行文本分类
- Bert分词器
- 训练任务构建
- 基于昇腾Npu训练Bert模型
- 参考文献
Bert网络的主要创新点介绍
- 提出预训练加微调的思想,其中预训练的思想来源于图像领域中预训练。
- 借鉴了Word2Vec中CBOW的思想(完形填空)双向编码。
- 采用了transform架构作为双向结构的基础模块,使用Attentio机制作为特征提取器将任意位置的两个单词的相关性转换成数字,有效的解决了NLP中长期依赖问题,能更彻底的捕捉语句中的双向关系。
- 在CBOW的基础之上,添加了语言掩码模型(Mask Language Model),减少了训练和推理阶段的不匹配问题,避免了过拟合现象。
- 使用下句预测(NSP)作为无监督预训练的一部分,用于捕捉句子之间的语义关系。
Bert及网络搭建过程介绍
BERT(Bidirectional Encoder Representations from Transformers)是一种基于多层Transformer-Encoder的预训练语言模型。
它通过预训练+微调并与Tokenization、多种Embeddings和特定任务的输出层相结合,能够捕捉文本的双向上下文信息,泛化能力强,在各种自然语言处理任务中表现出色。
BERT的架构主要包括输入层 、编码层 和输出层。
其中输入层负责处理原始文本,编码层由多个Transformer-Encoder模块组成,每个Transformer块包含多头自注意力层(MLA)和前馈神经网络层(FFN),输出层则根据具体任务进行微调。
下面将会对Bert中这三个主要模块的主要原理结合代码一起进行介绍。
input embeddings层
跟大多数NLP深度学习模型一样,BERT将输入文本中的每一个词(token)送入token embedding层从而将每一个词转换成向量形式,但不同于其他模型的是,BERT又多了两个嵌入层,即segment embeddings 和 position embeddings。
下面是输入Bert中Embedding层代码实现,定义了一个Embedding类继承了torch的Module模块,含'init'与'forward'两个功能函数,其中'init'用于遍历初始化,'forward'用于定义网络前向连接结构顺序。
下面详细介绍了上述Token embedding、Position Embeddings与Segment Embeddings原理及过程。
Token embedding
例如现有输入文本是:"strawberries is my favorite",输入文本在送入token embeddings 层之前要先进行tokenization处理,具体的处理方式是:将两个特殊的token会被插入到tokenization的结果的开头 (\[CLS\])和结尾 (\[SEP\]) 因此,输入文本变为"\[CLS\] strawberries is my favorite \[SEP\]"。
Bert中tokenization使用的方法是WordPiece tokenization. 这是一个数据驱动式的tokenization方法,旨在权衡词典大小和oov词的个数,这种方法可以把"strawberries"切分成"straw" 和"berries",将favorite切分为"favo"与"rite"。
因此,输入文本变为"\[CLS\] straw berries is my favo rite \[SEP\]"。
最后,Token Embeddings 层会将每一个wordpiece token转换成768维的向量。这样,例子中的8个token就被转换成了一个(8, 768) 的矩阵或者是(1, 8, 768)的张量(如果考虑batch_size的话)。
Position Embeddings
对于一个nlp任务而言,词与词之间的顺序关系通常会影响着整个句子含义甚至情感的走向,例"武松打虎"与"虎打武松"意义就完全不一样。
Bert中的Attention模块虽然能够有效的解决长距离依赖问题,但是其在计算的过程中未考虑到序列中词语的语序信息,从而导致会出现"武松打虎"与"虎打武松"这两句话通过Attention以后计算的结果完全一样。
这明显是不符合语义常识的,Transform架构中引入了位置编码这一思想,用来解决句子语序问题带来的语义不一致的现象。
Segment Embeddings
在bert预训练的数据集中会有对话场景,问答场景等数据集,像这类场景的话上下文关联对于情感及问答的走向非常重要。
segment embeddings在Bert中主要用来区分一个句子对中的两个句子,来识别上下文子句,标识方式是给第一句赋0,第二句赋1,表示先后关系。
Self-Attention
自注意力机制的其特点是Query、Key和Value都来自同一个输入序列,可以使模型能够迅速的学习到输入序列中的内在关系和依赖性。
自注意力机制中,对于输入序列中的每个位置,模型都会计算它与所有其他位置之间的关系,并得到一个权重分布。
然后,根据这个权重分布对输入序列进行加权求和,以得到每个位置的输出。这个过程也被称为"内部注意"或"自关注"。
整个模块包含三个输入 Q、K、V,其中Q、K、V 来自输入句子 X 的词向量x的线性转化,即对于词向量x,给定三个可学习的矩阵参数
这也是Self-Attention 名字的来源:Q、K、V 三个矩阵由同一个词向量线性转化而得。
模型训练的过程中数据都是以Batch的形式输入到模型,一个Batch中每个句子的长度是不一样的,需要PADDING将所有的句子都补全到最长的长度,PADDING数值可以是0(也可以是其他较大的数)。
由于我们不希望该填充的位置参与到后期的反向传播过程,从而提出了在训练时将补全的位置给Mask掉的做法,也就是图中的MASK模块,当PADDING值为较大的负数时,通过softmax操作以后该位置的预测概率值接近于0。
整个Self-Attention模块具体代码实现如下:
图形化原理展示过程如下:
首先,
其次,每一个
最后,将所有的
该值运用到了sequence中的其他所有输入,经过attention加权重后,最终的结果包含了所有节点的信息,并赋予了不同的权重。
MutiHeadAttention
"MutiHeadAttention"作为整个transform架构的核心组成部分,其核心模块是由多个self-attention组合而成。
区别在于:Self-Attention关注序列内每个位置对其他所有位置的重要性,而Multi-Head Attention则通过在多个子空间中并行计算注意力,使模型能够同时捕获和整合不同方面的上下文信息,从而增强了对复杂数据内在结构的建模能力。
整个MutiHeadAttention的代码实现与self-attention过程类似,定义了一个MultiHeadAttention类,类中有'init'与'forward'组成,其中init负责初始化操作,'forward'负责网络层构建。
对于MultiHeadAttention而言其输入的QKV是相等的,所以在'init'中使用映射linear做一个映射得到参数矩阵Wq, Wk,Wv作为共有变量。
此外,对于forward操作,MultiHeadAttentio中的多头分为三步:先映射、分头,然后计算atten_scores,最后计算attention_value。
映射与分头对应代码'self.W_Q(Q).view'、'self.W_K(K).view'与'self.W_K(K).view'操作。
atten_scores计算与attention_value在代码中可以明显看到,这里就不在一一对应。
参照上述代码,muti-head-attention的详细计算过程如下:
相比于self-attention模块,multi-head self-attention得到
Encoder-Transformer模块
BERT的全称为Bidirectional Encoder Representation from Transformers,从名字可以看出,BERT主要网络结构用到了Transformer的Encoder模块,见如下Transformer网络结构图,其中红框Encoder部分即BERT用到的网络结构:
每个encoder块有3个主要层,即多头注意(MHA),规范层和mlp。
因此要想实现Encoder-Transformer模块则还需要实现mlp模块,也就是FFN网络。
FFN层是一种前馈神经网络,其结构相对简单,对输入进行非线性变换,生成最终的输出,该网络的实现非常简单,其本质上就是一个两层的全连接网络,中间由激活函数(如ReLU)进行非线性转换,这里用的是gelu函数做线性变换。
代码实现中定义了一个PoswiseFeedForwardNet类来定义FFN网络,可以看到该网络主要是由两层的全连接网络组成,前向函数中使用了gelu非线性函数。
在上述FFN网络实现了的基础上,我们可以构建一个基础的Encoder,根据Transform中encoder模块定义,我们定义了一个EncoderLayer来表示一个基础的Encoder模块,其由MultiHeadAttention与PoswiseFeedForwardNet相互串联而成。
Bert网络模型及架构分析
在上述所有基础模块均实现的基础上,我们现在可以来搭建一个Bert网络模型。
由于上述Attention操作过程中用到了padding操作,因此为了得到句子中的padding信息,方便给到模型输入,去掉pad数值对模型的影响,这里定义了一个函数用来获取句子中pad的位置信息。
基于上述input embeddings、Self-Attention、MutiHeadAttention、Encoder-Transformer模块实现与定义,我们可以开始定义一个Bert类来实现Bert网络。
该类也是包含两个函数'init '与'forward'函数,其中'init'函数用于初始化,forward定义了整个BERT网络的前向过程,也就是整个BERT网络结构的定义。
在'init'函数中,'embedding'根据词向量构建词表矩阵;'layers'利用torch.nn的ModuleList方法将n_layers个encoder层堆叠起来;'fc'层定义为线性层;'activ1'与'activ2'分别是两种类型的激活函数Tanh与gelu;'norm'实现正则化操作;'classifier'是线性分类层,维度是从d_model到4,因为本实验介绍的四分类任务,所以这里为4,其他的分类任务可以根据需要自行进行更改;此外,由于BERT是基于Encoder结构,因此相比transform中的Decoder模块,这里定义层一个线性层用于微调任务,对应'init'中'decoder'。
在'forward'函数中,输入层'input'为输入给Embedding后加权求和以后的结果,该结果将输入单词转化为矩阵信息输入给整个Eccoder模块;'get_attn_pad_mask'调用'get_attn_pad_mask'得到句子中pad的位置信息;后续一个是Encoder模块与输出模块,具体信息在代码中有注释。
Bert网络进行文本分类
本章节主要介绍如何在一个简单的文本实例上如何训练上述搭建好的bert网络。
相关库模块导入
由于使用的是昇腾硬件,因此还需要导入昇腾npu相关模块,其中transfer_to_npu可以使得模型快速的迁移至昇腾上运行。
分词器
将文本进行分词(Tokenization),并将这些词转换为模型可以理解的数字编码形式,由于本文实验所使用的实验文本较为简单,如果用户想要训练复杂的数据集,可以使用BERT tokenizer提供的BertTokenizer标记器,将文本转化为模型可以直接处理的数据。
这里主要是针对上述text样例进行分词操作。
首先,对输入的文本进行预处理,包括去除多余的空格、标点符号('.', ',', '?', '!')等,以便后续的分词操作,对应代码段're.sub()'。
接下来,将分词好的文本结合'\[PAD\]'、'\[CLS\]'、'\[SEP\]'与'\[MASK\]'拼接在一起并将分词后的文本编码,内容保存在'word_dict'中,注意这里赋值是从i + 4开始,是因为前面'\[PAD\]'、'\[CLS\]'、'\[SEP\]'与'\[MASK\]'占据了四个位置。
最后,读取输入文本,将输入的文本句子转化为编码后的数字,这里的数字可以直接供给模型使用输入,也就是'token_list'。
训练任务数据构建
bert网络在预训练过程中使用了掩码语言建模 (MLM)与下一句预测 (NSP)的思想模型用来学习语言的内部关联,然后可以使用该关联提取对下游任务有用的特征:例如,如果您有一个带标签的句子数据集,则可以使用BERT模型生成的特征作为输入来训练标准分类器。
掩码语言建模 (MLM):取一个句子,模型随机掩码输入中的 15% 的单词,然后通过模型运行整个掩码句子,并预测被掩码的单词。这与通常一个接一个地看到单词的传统循环神经网络 (RNN) 或内部掩码未来标记的 GPT 等自回归模型不同。它允许模型学习句子的双向表示。 下一句预测 (NSP):模型在预训练期间将两个掩码句子连接起来作为输入。有时它们对应于原文中彼此相邻的句子,有时则不是。然后,模型必须预测这两个句子是否彼此相连。
基于昇腾Npu训练Bert模型
'make_batch'作用是构建预训练任务的数据,包括MLM与NSP功能。
'map'使用zip函数将batch中的元素转化成LongTensor的格式。
'model'为我们上述搭建好的BERT模型。
'criterion'使用了交叉熵损失函数(这里ignore_index=0表示只计算mask位置的损失,其他位置的损失不参与计算)
'optimizer'使用Adam优化器,并设置学习率为0.001。
for循环中使用上述的单个文本对Bert模型开启迭代了100个epoch,每个10次打印一次损失,可以观察到损失值逐渐下降。
'zero_grad()'初始化梯度为0。
logits_lm与logits_clsf分别对应Bert模型输出中的词表输出与类输出部分,其中,logits_lm:\[batch_size, max_pred, n_vocab\]。
导入torch及npu相关包
Reference
\[1\] Devlin J. Bert: Pre-training of deep bidirectional transformers for language understanding\[J\]. arXiv preprint arXiv:1810.04805, 2018.
\[2\] Vaswani A. Attention is all you need\[J\]. Advances in Neural Information Processing Systems, 2017.
参考的博客与资料:
https://www.cnblogs.com/nickchen121/p/15114385.html#四word2vec-模型 https://www.luxiangdong.com/2023/09/10/trans/ https://blog.youkuaiyun.com/LiRongLu_/article/details/126384067