Attention机制和transformer模型

最新推荐文章于 2024-09-09 11:30:48 发布

君威1995

最新推荐文章于 2024-09-09 11:30:48 发布

阅读量1.2k

点赞数 2

本文链接：https://blog.youkuaiyun.com/weixu22/article/details/119787022

版权

本文介绍了Transformer模型和Attention机制在自然语言处理中的应用。首先，概述了seq2seq模型的功能、结构、运行过程及其局限性。接着，详细讨论了Attention机制的作用、结构和运行流程，特别是如何解决seq2seq模型的局限。最后，详细阐述了Transformer模型，包括Encoder的Self-Attention和多头注意力机制，以及Decoder的工作原理，展示了Transformer如何通过并行计算提高效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 引言

自然语言处理（Natural Language Processing, NLP）是一种重要的人工智能（Artificial Intelligence, AI）技术，可以完成文本分类、序列标注、自动问答、机器翻译和摘要生成等任务，促进了搜索引擎、智能客服和推荐系统等应用的产生和发展，影响着生活的方方面面，值得我们去学习和研究。

最近几年，基于深度学习（Deep Learning, DL）的NLP技术在各项任务中取得了很好的效果，这些基于深度学习模型的NLP任务解决方案通常不使用传统的、特定任务的特征工程而是仅仅使用一个端到端（end-to-end）的神经网络模型就可以获得很好的效果。其中，Transformer是目前最前沿的深度学习模型结构，与之相关的概念有目前很火的attention（注意力）机制和BERT等。

在飞速发展的计算机领域，紧跟技术前沿是非常重要的，因此我们很有必要去学习目前最流行也是最有潜力的transformer模型架构及其相关知识。首先，本文将介绍之前比较流行的NLP处理技术seq2seq模型及其局限性。然后，本文将引出可解决seq2seq模型局限性的attention机制的思想和具体原理。最后，本文将介绍基本能够取代RNN的包括attention机制的transformer模型架构。

2. seq2seq模型

2.1 功能

seq2seq模型是RNN最重要的一个变种，可以处理非等长的输入和输出序列。
在这里插入图片描述
例如，在机器翻译中，输入一连串的单词，可以输出一连串其他语言的单词。

在这里插入图片描述

2.2 结构

seq2seq 模型是由编码器（Encoder）和解码器（Decoder）组成的。其中，编码器会处理输入序列中的每个元素，把这些信息转换为一个向量（称为上下文（context））。当我们处理完整个输入序列后，编码器把上下文（context）发送给解码器，解码器开始逐项生成输出序列中的元素。

在这里插入图片描述

得到 context 有多种方式，最简单的方法就是把 Encoder 的最后一个隐状态赋值给 context，还可以对最后的隐状态做一个变换得到 context，也可以对所有的隐状态做变换。其中，编码器和解码器一般都使用 RNN 结构。

2.3 运行

在机器翻译任务中，上下文（context）是一个向量（基本上是一个数字数组)。

在这里插入图片描述

你可以在编写seq2seq模型的时候设置上下文向量的长度。这个长度是基于编码器 RNN 的隐藏层神经元的数量。上图展示了长度为 4 的向量，但在实际应用中，上下文向量的长度可能是 256，512 或者 1024。

我们在处理单词之前，需要把他们转换为向量。这个转换是使用 word embedding 算法来完成的。

在这里插入图片描述

模型的主要模块是 RNN，其机制如下图所示：

在这里插入图片描述

Seq2seq 在机器翻译等应用中，呈现出序列计算的特点，如下所示：

在这里插入图片描述

2.4 局限

在Encoder-Decoder结构中，Encoder把所有的输入序列都编码成一个统一的语义特征 context 再解码，因此， context 中必须包含原始序列中的所有信息，它的长度就成了限制模型性能的瓶颈。如机器翻译问题，当要翻译的句子较长时，一个 context 可能存不下那么多信息，就会造成翻译精度的下降。

3. Attention机制

3.1 功能

在 Bahdanau等2014发布的Neural Machine Translation by Jointly Learning to Align and Translate 和 Luong等2015年发布的Effective Approaches to Attention-based Neural Machine Translation
两篇论文中，提出并改进了一种叫做注意力 Attention 的技术，它极大地提高了机器翻译的质量。注意力机制可以使模型根据需要，个性化地在每个输出时间步使用不同的 context 来解决单一 context 存储信息受限的问题。

在这里插入图片描述

3.2 结构

注意力模型不同于经典的序列到序列（seq2seq）模型，主要体现在 2 个方面：

首先，编码器会把更多的数据传递给解码器。编码器把所有时间步的 hidden state（隐藏层状态）传递给解码器，而不是只传递最后一个 hidden state（隐藏层状态）:

在这里插入图片描述

第二，注意力模型的解码器在产生输出之前，做了一个额外的处理。为了把注意力集中在与该时间步相关的输入部分。解码器做了如下的处理：

查看所有接收到的编码器的 hidden state（隐藏层状态）。其中，编码器中每个 hidden state（隐藏层状态）都对应到输入句子中一个单词。
给每个 hidden state（隐藏层状态）一个分数（我们先忽略这个分数的计算过程）。
将每个 hidden state（隐藏层状态）乘以经过 softmax 的对应的分数，从而，高分对应的 hidden state（隐藏层状态）会被放大，而低分对应的 hidden state（隐藏层状态）会被缩小。
对所有 hidden state进行加权求和，得到个性化的 context 用于解码。

在这里插入图片描述