细谈Transformer_transformer网络是谁发表的-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_59267400/article/details/145407358

1. Transformer 的背景

Transformer 由 Vaswani 等人在 2017 年提出，论文名为 "Attention Is All You Need"。它彻底改变了 NLP（自然语言处理）领域，相较于 RNN（循环神经网络）和 LSTM（长短时记忆网络），Transformer 具备以下优势：

并行化计算：由于不依赖序列的时间步计算（不像 RNN 那样逐步处理），可以利用 GPU 高效计算。
长距离依赖捕捉能力更强：通过“自注意力（Self-Attention）”机制，可以在处理长序列时更有效地关注相关内容，而不是像 RNN 那样面临梯度消失问题。
更强的表达能力：多头注意力（Multi-Head Attention）机制使得模型可以关注输入序列中的不同部分，从多个角度建模语义关系。

Transformer 由“编码器（Encoder）和解码器（Decoder）”两部分组成，每部分由多个层（Layer）堆叠而成。

作用：接收输入序列，将其转换为高维表示，提供给解码器。
结构（每层）：
1. 多头自注意力（Multi-Head Self-Attention）
2. 前馈神经网络（Feed-Forward Network, FFN）
3. 层归一化（Layer Normalization） + 残差连接（Residual Connection）

组件	作用
输入嵌入（Token Embedding）	把输入序列的 Token 转换为向量表示（例如词向量）。
位置编码（Positional Encoding）	由于 Transformer 不像 RNN 依赖序列顺序，需要添加位置信息。
多头自注意力（Multi-Head Self-Attention）	让输入序列的不同部分彼此交互，捕捉长距离依赖关系。
前馈神经网络（Feed-Forward Network, FFN）	提高特征表达能力，对每个 Token 进行非线性变换。
残差连接（Residual Connection）+ 层归一化（LayerNorm）	让信息更容易传播，避免梯度消失或梯度爆炸。

编码器的流程

最终输出：
一个与输入长度相同的表示向量，每个 Token 经过多次交互后，包含了整个序列的上下文信息。

作用：接收编码器输出和目标序列（已生成的部分），生成新的序列。
结构（每层）：
1. Masked 多头自注意力（Masked Multi-Head Self-Attention）
2. 跨层注意力（Cross Attention），用于处理编码器输出
3. 前馈神经网络（FFN）
4. 层归一化 + 残差连接

组件	作用
Masked 多头自注意力（Masked Multi-Head Self-Attention）	只能关注当前和过去的 Token，防止未来信息泄露。
跨注意力（Cross-Attention）	结合编码器输出，使解码器能够获取输入序列的信息。
前馈神经网络（Feed-Forward Network, FFN）	进一步处理特征，增强表达能力。
残差连接（Residual Connection）+ 层归一化（LayerNorm）	让信息更容易传播，提高训练稳定性。