Transformer框架

原创于 2025-11-27 09:46:16 发布 · 551 阅读

CC 4.0 BY-SA版权

文章标签：

在人工智能，尤其是在自然语言处理领域，有一些里程碑式的模型彻底改变了游戏规则。如果说Word2Vec为我们带来了词向量的曙光，LSTM/GRU处理了序列的短期记忆，那么 Transformer 的诞生，则是一次真正的范式转移。它不仅是BERT、GPT等强大模型的基石，更是将“注意力机制”这一概念推向了舞台的中央。

今天，就让我们一同揭开Transformer的神秘面纱，看看这个没有循环、没有卷积的结构，是如何主宰NLP世界的。

一、为什么需要Transformer？RNN/LSTM的困境

在Transformer出现之前，处理序列任务（如机器翻译、文本生成）的主流模型是循环神经网络（RNN） 及其变体LSTM、GRU。

它们虽然有效，但存在几个核心缺陷：

顺序计算，效率低下：RNN必须一步步处理序列。计算第t步时，必须等待第t-1步完成。这无法利用现代GPU强大的并行计算能力，训练速度慢。
长程依赖问题：尽管LSTM通过门机制缓解了梯度消失/爆炸，但对于非常长的序列，模型依然难以有效捕捉远距离词语之间的关系。信息的“记忆”能力在长距离传输中会衰减。

Transformer的答案是什么？
“完全抛弃循环，拥抱纯粹的注意力机制，实现极致并行。”

二、 Transformer的核心思想：Self-Attention（自注意力）

Transformer的全部魔力，几乎都源于其核心组件——自注意力机制。它允许模型在处理一个词时，直接关注到输入序列中所有其他的词，并计算出每个词对当前词的重要性。

一个生动的比喻：
想象你在阅读一句话：“The animal didn't cross the street because it was too tired.” 这里的 it（它）指的是什么？是 animal 还是 street？我们人类能立刻判断出是 animal，因为我们理解了上下文关系。自注意力机制所做的就是让模型学会这种关联。

Self-Attention是如何工作的？（三步走）

计算注意力分数：对于序列中的每个词，我们将其转换为三个向量：Query（查询）、Key（键） 和 Value（值）。简单理解：
- Query：“我（当前词）在寻找什么？”
- Key：“我（其他词）能提供什么信息？”
- Value：“我（其他词）的真正内容是什么？”
  通过计算一个词的Query与序列中所有词的Key的点积，得到注意力分数。分数越高，表示两个词关联越紧密。
缩放与Softmax：将上一步的分数除以一个缩放因子（通常是Key向量维度的平方根），这是为了在训练中拥有更稳定的梯度。然后通过Softmax函数将这些分数归一化为概率分布（总和为1），这代表了在编码当前词时，对其他词的“关注权重”。
加权求和：将Softmax得到的权重，分别与每个词的Value向量相乘，然后求和。这个最终的结果就是当前词经过自注意力机制处理后的新表示——一个融入了整个序列上下文信息的向量。

通过这个过程，模型在编码“it”时，就会给“animal”分配极高的权重，从而生成一个能明确指代“animal”的“it”向量表示。

多头注意力（Multi-Head Attention）：Transformer没有止步于此。它同时进行了多次独立的Self-Attention计算，每次称为一个“头”。每个头可以学习到不同方面的上下文信息。例如，一个头可能关注句法关系，另一个头可能关注指代关系。最后，将所有头的输出拼接起来，再通过一个线性层整合。这极大地增强了模型的表达能力。

三、 Transformer架构全景图

现在，让我们把Self-Attention放到Transformer的宏观架构中。其整体是一个编码器-解码器结构。

1. 编码器（Encoder）
编码器由N个（原论文中N=6）完全相同的层堆叠而成。每一层包含两个子层：

多头自注意力层：如上所述，用于捕捉上下文。
前馈神经网络层：一个简单的全连接网络，对每个位置的向量进行独立变换。
每个子层周围都有一个 残差连接 和 层归一化。这是稳定深层网络训练的关键技术。

2. 解码器（Decoder）
解码器也由N个相同的层堆叠而成。每一层包含三个子层：

掩码多头自注意力层：与编码器类似，但为了防止模型在训练时“偷看”未来的答案（即预测第t个词时，只能看到1到t-1的词），通过一个掩码（Mask）将未来的位置设置为负无穷，使其Softmax权重为0。
编码器-解码器注意力层：这里的Query来自解码器上一层的输出，而Key和Value来自编码器的最终输出。这让解码器在生成每一个词时，都能有选择地关注输入序列中最相关的部分。
前馈神经网络层：与编码器相同。

3. 位置编码（Positional Encoding）
由于Self-Attention本身不包含位置信息（它是对所有词的无序加权平均），我们必须显式地注入序列的顺序信息。Transformer使用了一种巧妙的正弦和余弦函数来生成位置编码，然后将其与词向量相加。这使得模型能够感知到每个词在序列中的绝对和相对位置。