MultiHeadAttention多头注意力机制的原理

最新推荐文章于 2025-10-11 12:55:33 发布

原创

最新推荐文章于 2025-10-11 12:55:33 发布 · 2.7w 阅读

100 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习 #人工智能 #nlp

MultiHeadAttention多头注意力作为Transformer的核心组件，其主要由多组自注意力组合构成。

1. self-Attention自注意力机制

在NLP任务中，自注意力能够根据上下文词来重新构建目标词的表示，其之所以被称之为注意力，在于从上下文词中去筛选目标词更需要关注的部分，比如"他叫小明"，"他"这个词更应该关注"小明"这个上下文。

上图提示了一个输入为两个单词[Thinking, Matchines]的序列在经过自注意力构建后的变换过程：

通过Embeding层，两个单词的one-hot向量转换为embedding向量X=[x1, x2]
通过三组矩阵运算得到query、key、value值，这三组矩阵的输入都是原来同一个输入向量[x1,x2]，这也是被称之为自注意力的原因。

$\\ Q=\begin{bmatrix} q_1\\ q_2 \end{bmatrix}_{2\times d_q}=\begin{bmatrix} x_1\\ x_2 \end{bmatrix}_{2\times d_x} *W^Q_{d_x \times d_q}\\ K=\begin{bmatrix} k_1\\ k_2 \end{bmatrix}_{2\times d_k}=\begin{bmatrix} x_1\\ x_2 \end{bmatrix}_{2\times d_x} *W^K_{d_x \times d_k}\\ V=\begin{bmatrix} v_1\\ v_2 \end{bmatrix}_{2\times d_v}=\begin{bmatrix} x_1\\ x_2 \end{bmatrix}_{2\times d_x} *W^K_{d_x \times d_v}$

计算query、key间的相似度得分，为了提升计算效率，此处采用缩放点积注意力，其需要query、key向量的维度是相等的，并且都满足零均值和单位方差，此时得分表示：

$\\ score(q, k)=\frac{q\cdot k }{\sqrt{d_k}}\\ Score(Q, K)_{2\times 2}=\begin{bmatrix} s_{11} & s_{12}\\ s_{21} & s_{22}\end{bmatrix}_{2 \times 2}=\frac{1}{\sqrt{d_k}}\begin{bmatrix} q1 && q1\\ q2 && q2 \end{bmatrix}_{2\times d_q}\begin{bmatrix} k1 & k2 \\ k1 & k2 \end{bmatrix}_{d_q \times 2}$