Transformer细节（六）——详解Transformer各层结构和组成及代码实现

多学学多写写

已于 2024-07-05 12:37:49 修改

阅读量2.5k

点赞数 50

文章标签： transformer 深度学习人工智能

于 2024-06-23 09:55:51 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_47129891/article/details/139883769

版权

Transformer 模型的架构是由多个编码器（Encoder）和解码器（Decoder）层堆叠而成的。

一、编码器（Encoder）

编码器由多个相同的编码器层（Encoder Layer）堆叠而成。每个编码器层包含两个主要子层：自注意力（Self-Attention）子层和前馈神经网络（Feed Forward Neural Network，FFN）子层。

1. 自注意力子层（Self-Attention Layer）

输入与输出维度

输入张量的形状为 \((N, L, d_{\text{model}})\)

计算过程

注意力机制：通过查询（Query）、键（Key）和值（Value）来计算注意力得分，公式为：

\[ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \]

多头注意力（Multi-Head Attention）

将输入分成多头，每个头独立计算注意力，再将结果拼接并通过线性变换。多头注意力公式为：\[ \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W^O \]
其中，每个头的计算为：\[ \text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V) \]

层归一化（Layer Normalization）

在自注意力操作之后进行归一化，并添加残差连接（Residual Connection）。