深入浅出Attention机制+Transformer架构

一、Attention 机制

在这里插入图片描述

概述

实现Attention的方式有很多种，这里展示比较常用的一种。在Encoder的过程中保留每一步RNN单元的隐藏状态h1……hn，组成编码的状态矩阵Encoder_outputs；在解码过程中，原本是通过上一步的输出yt-1和前一个隐藏层h作为输入，现又加入了利用Encoder_outputs计算注意力权重attention_weight的步骤。
相比于原始的Encoder-Decoder模型，加入Attention机制后最大的区别就是它不在要求编码器将所有输入信息都编码进一个固定长度的向量之中。而是，编码器需要将输入编码成一个向量的序列，在解码的时候，每一步都会选择性的从向量序列中挑选一个子集进行进一步处理。这样，在产生每一个输出的时候，都能够做到充分利用输入序列携带的信息。而且这种方法在翻译任务中取得了非常不错的成果。

过程梳理

这是一个基本的attention模型，encoder保存每次的hidden。在decoder端把input传入和隐藏单元拼接起来传入线性层，将其映射到seqlen维，每一维描述的是输入encoder中各位置元素对当前decoder输出单词的重要性占比。然后利用矩阵相乘获取到加权求和之后的注意力向量，用于描述“划了重点”之后的输入序列对当前预测这个单词的影响。然后将注意力向量和input拼接在一起，再利用一个线性层将其映射到RNN的输入维度，最后送入RNN，得到新的hidden和output。output作为下一个的输入。
请添加图片描述

Attention的本质

在这里插入图片描述

attention其实是一种软寻址，将Source中的构成元素想象成是由一系列的<Key,Value>数据对构成，此时给定Target中的某个元素Query，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的Attention数值。所以本质上对source中的各个value进行加权求和，而query和key用来计算对应value的权重系数。
总结成一个公式：

在这里插入图片描述
如果细分可以分为三个步骤，第一步是计算query与各个key的相关性；第二步是通过softmax对第一阶段的原始分值归一化处理；第三个步骤是根据权重系数对value进行加权求和。

二、Self-Attention模型

self-attention模型指的不是Target和Source之间的Attention机制，而是Source内部元素之间或者Target内部元素之间发生的Attention机制。
在这里插入图片描述

1、宏观角度分析

在这里插入图片描述
编码组件部分由一堆编码器（encoder）构成（论文中是将6个编码器叠在一起——数字6没有什么神奇之处，你也可以尝试其他数字）。解码组件部分也是由相同数量（与编码器对应）的解码器（decoder）组成的。

所有的编码器在结构上都是相同的，但它们没有共享参数。每个解码器都可以分解成两个子层。

在这里插入图片描述
从编码器输入的句子首先会经过一个自注意力层，这层帮助编码器在对每个单词编码时关注输入句子的其他单词。（意思是：对于某个单词，关注该词与该句子中其他单词之间的attention），自注意力层的输出会传递到前馈网络中。（每个位置的单词进入的前馈网络是完全一样的）

2、微观角度分析

计算自注意力的第一步就是从每个编码器的输入向量（每个单词的词向量）中生成三个向量。也就是说对于每个单词，我们创造一个查询向量query、一个键向量key和一个值向量value。这三个向量是通过词嵌入与三个权重矩阵后相乘创建的。
在这里插入图片描述

第二步是计算打分。假设我们在为这个例子中的第一个词“Thinking”计算自注意力向量，我们需要拿输入句子中的每个单词对“Thinking”打分。这些分数决定了在编码单词“Thinking”的过程中有多重视句子的其它部分。这些分数是通过打分单词（所有输入句子的单词）的键向量与“Thinking”的查询向量相点积来计算的。
第三步和第四步是将分数