transformer 详解_transformer解码过程-优快云博客

本文链接：https://blog.youkuaiyun.com/frank_zhaojianbo/article/details/122778877

Transformer 详解

首先，我们从宏观的视角开始讲一下 Transformer。
在这里插入图片描述

编码器 (encoder)

注意力机制

查询向量、键向量和值向量

矩阵运算实现自注意力机制

多头注意力

位置编码表示序列的顺序(positional embedding)

残差模块
在这里插入图片描述
层-归一化步骤：https://arxiv.org/abs/1607.06450

解码机(decoder)

在完成编码阶段后，则开始解码阶段。解码阶段的每个步骤都会输出一个输出序列（在这个例子里，是英语翻译的句子）的元素。

接下来的步骤重复了这个过程，直到到达一个特殊的终止符号，它表示 transformer 的解码器已经完成了它的输出。每个步骤的输出在下一个时间步被提供给底端解码器，并且就像编码器之前做的那样，这些解码器会输出它们的解码结果。另外，就像我们对编码器的输入所做的那样，我们会嵌入并添加位置编码给那些解码器，来表示每个单词的位置。

而那些解码器中的自注意力层表现的模式与编码器不同：在解码器中，自注意力层只被允许处理输出序列中更靠前的那些位置。在 softmax 步骤前，它会把后面的位置给隐去（把它们设为-inf）。这个“编码-解码注意力层”工作方式基本就像多头自注意力层一样，只不过它是通过在它下面的层来创造查询矩阵，并且从编码器的输出中取得键/值矩阵。

Softmax 层
在这里插入图片描述