为什么不加位置编码注意力权重不会变化-优快云博客

本文链接：https://blog.youkuaiyun.com/DLite/article/details/145728349

在理解Transformer模型时，一个关键问题是：为什么不加位置编码时，注意力权重不会变化？我们可以通过一个生动的“找朋友”类比来理解。

假设在一个班级里，小明和小红这两个名字分别对应了不同座位的同学。老师提出两个要求：其一，同学们只看名字标签，这就好比在Transformer中不加位置编码；其二，每个同学要写纸条说明“自己和谁最相似”。

在这种情况下，会出现如下现象：第1排的小明和第5排的小明，由于名字完全相同，他们会被认为相似度是100%；同样，第3排的小红和第6排的小红也会被判定为完全相似。而且，无论同学们怎么调换座位，相似度的判断仅仅取决于名字。

这一过程其实对应着Transformer的计算过程：

词向量如同名字标签：每个词的嵌入向量就像名字一样，比如“bank”这个词，无论它表达“河边”还是“银行”的意思，在不同位置时词向量都是相同的。
Q/K计算类似查字典：在通过 $Q = XW_Q$ 和 $K = XW_K$ 进行计算时，如果 $X$ 中不包含位置信息，那么相同词语的 $Q$ 值和 $K$ 值会完全一致，就像两个“bank”；并且不同位置的相同词语点积得分也相同，即 $softmax(QK^T/d)$ 的值保持不变。
最终结果：注意力权重仅仅依赖于词语本身，而与位置毫无关系。

这也就解释了，为什么在没加位置编码时，调换词语位置不会改变注意力权重。就如同只看名字不看座位时，小明换座位并不会改变大家对他与其他同学相似度的判断。

进一步从Transformer模型的原理深入分析，当未加入位置编码时，相同词语在不同位置的点积得分相同，原因如下：

词向量相同：每个词语的初始嵌入向量仅仅包含语义信息。例如，两个“bank”（分别表示“银行”和“河岸”）在不同位置的词向量完全一样，即 $X_i = X_j$ （这里假设 $i$ 和 $j$ 是相同词语所处的不同位置）。
Q/K计算过程：在通过线性变换生成查询向量 $Q = XW_Q$ 和键向量 $K = XW_K$ 时，如果 $X_i = X_j$ ，那么必然有 $Q_i = Q_j$ 且 $K_i = K_j$ 。进而，点积得分 $Q_iK_j^T = Q_jK_i^T = Q_iK_i^T$ ，这体现了点积运算的对称性。
数学推导：假设两个相同词语分别位于位置 $m$ 和 $n$ ，那么计算点积得分的公式为：
$\text{Score}(m,n) = \frac{Q_mK_n^T}{\sqrt{d}} = \frac{(XW_Q)(XW_K)^T}{\sqrt{d}} = \frac{XW_QW_K^TX^T}{\sqrt{d}}$
由于 $X$ 相同，无论位置如何变化，这个计算结果都不会改变。
直观例子：比如有句子A：“猫追老鼠”，句子B：“老鼠追猫”（仅仅调换了词语位置）。在没有位置编码时，“追”与“猫”的点积得分会等于“追”与“老鼠”的点积得分，这样模型就无法区分到底是谁追谁了。