【一、基础篇】Q3：多头注意力中 “头”（head）指的是什么？

最新推荐文章于 2025-11-24 18:29:32 发布

原创最新推荐文章于 2025-11-24 18:29:32 发布 · 259 阅读

CC 4.0 BY-SA版权

文章标签：

67 篇文章

订阅专栏

多头注意力（Multi-Head Attention）中的“头”（head）指的是并行工作的独立注意力计算单元。每个头负责从输入序列的不同角度或特征子空间捕捉信息，最后将所有头的输出融合，使模型能同时理解语法、语义、逻辑等多维度依赖关系。下面从核心角色、工作原理和价值三方面详细说明。

独立的学习视角：每个头拥有独立的可训练参数矩阵（包括查询（Q）、键（K）和值（V）的线性变换权重），这些参数使得不同头能够关注输入数据的不同侧面。例如，在处理句子时，某些头可能专门学习局部语法结构（如主谓一致），而另一些头则捕捉全局语义关联（如代词指代或逻辑因果关系）。
子空间特征提取：通过将输入序列的嵌入向量分割到多个低维子空间（例如，总维度为512的模型若包含8个头，则每个头处理64维向量），每个头在其特定的子空间中计算注意力权重。这种设计允许模型分散学习压力，更高效地捕获多样化特征。

线性变换与分割：输入序列首先通过三个独立的线性层生成Q、K、V矩阵。随后，这些矩阵被按头数（h）分割成h组，每组对应一个头的计算资源。
并行注意力计算：每个头独立执行缩放点积注意力操作。具体包括：计算查询与键的相似度，应用Softmax归一化注意力权重，最后对值进行加权求和，得到该头的输出。
输出融合：所有头的输出被拼接为一个综合向量，再通过一个线性投影层整合信息，确保输出维度与输入匹配。这一步骤融合了不同头学到的多样化特征。

突破单一视角限制：单头注意力仅能从一个方向捕捉序列关系，而语言理解需多维度协同（如同时处理词序、语义和语境）。多头机制通过并行架构模拟了“多专家协作”，使模型能够同时关注输入的不同方面，显著提升对复杂语言结构的解析能力。
增强鲁棒性与效率：不同头之间具有一定冗余性，当输入含有噪声或异常时，部分头的有效学习可补偿其他头的临时失效，提升模型稳定性。此外，尽管头数增加，但通过降低每个头的维度（d_k = d_model / h），总计算量得以控制，兼顾效率与表达能力。