大语言模型-Transformer-Attention Is All You Need_transforme结构《attention is all you need》谷歌与大语言模型-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_42045968/article/details/140493565

一、背景信息：

Transformer是一种由谷歌在2017年提出的深度学习模型。

主要用于自然语言处理（NLP）任务，特别是序列到序列（Sequence-to-Sequence）的学习问题，如机器翻译、文本生成等。Transformer彻底改变了之前基于循环神经网络（RNNs）和长短期记忆网络（LSTMs）的序列建模范式，并且在性能上取得了显著提升。

二、整体结构：

Transformer 由 Encoder 和 Decoder 两个部分组成，Encoder 和 Decoder 都包含 6 个 block。

三、 Transformer 的输入

Transformer 的输入由 x的 词向量 和 位置向量 相加得到。
其中Transformer 在位置向量中保存单词在序列中的相对或绝对位置信息，位置向量由PE(Positional Encoding)表示：

eg：假设n为序列长度，d为表示向量维度，原始输入为 $X_{ori-input}$ （ $x_{1},x_{2}...x_{n} ]$ ）
则，原始输入 $X_{ori-input}$ 的词向量矩阵为 $X_{WE}$ 其维度为(n, d),
原始输入 $X_{ori-input}$ 的位置向量矩阵 $X_{PE}$ 维度也为(n, d)，
最终 Transformer 的输入矩阵 $X_{input}$ = $X_{WE}$ + $X_{PE}$ 维度也是(n, d)。

四、 Encoder

Encoder 部分由6个Encoder block 组成。
Encoder block 由Multi-Head Attention结合Add & Norm、Feed Forward结合 Add & Norm 组成。
即由下面两部分组成：
$X = LayderNorm(X_{input} + MultiHeadAttention(X_{input}))$