Transformer数学推导——Q41 推导相对位置编码中键-查询偏移量的梯度传播路径

该问题归类到Transformer架构问题集——位置编码——相对位置编码。请参考LLM数学推导——Transformer架构问题集。

在自然语言处理这片充满神秘与挑战的领域中，Transformer 模型凭借自注意力机制大放异彩，成为当之无愧的 “顶梁柱”。而相对位置编码作为 Transformer 架构中的关键一环，就像是赋予模型感知序列顺序的 “智慧之眼”。其中，键 - 查询偏移量的梯度传播路径更是如同模型训练过程中的 “神经网络”，承载着信息传递与参数优化的重任。今天，我们就深入剖析这一关键内容，揭开它的神秘面纱。

1. 相对位置编码背景介绍

在 Transformer 诞生初期，绝对位置编码是赋予模型位置信息的主要方式，它就像给每个位置都分配了一个独一无二的 “身份证号”。然而，这种方式在处理长序列时逐渐暴露出局限性，例如当序列长度增加，不同位置的编码可能会出现 “混淆”，导致模型难以准确捕捉位置之间的相对关系。

相对位置编码应运而生，它不再执着于每个位置的绝对身份，而是将目光聚焦于位置之间的相对距离和关系。这一转变，让模型在理解文本时，能够像人类一样，更关注元素之间的相对顺序和逻辑联系。比如在翻译一个复杂的长句时，相对位置编码能帮助模型更好地把握从句与主句、修饰词与中心词之间的位置关联，从而生成更准确、更自然的译文。

2. 相对位置编码基础原理

在 Transformer 的自注意力机制中，注意力分数的计算是模型理解输入序列的核心步骤。引入相对位置编码后，注意力分数 $A_{ij}$ 的计算公式变为： $A_{ij}=\frac{\text{exp}((\mathbf{q}_i\cdot\mathbf{k}_j + b_{ij})/\sqrt{d_k})}{\sum_{k = 1}^{n}\text{exp}((\mathbf{q}_i\cdot\mathbf{k}_k + b_{ik})/\sqrt{d_k})}$ 其中， $\mathbf{q}_i$ 是查询向量，它就像一个 “搜索者”，在输入序列中寻找相关信息； $\mathbf{k}_j$ 是键向量，充当着 “索引” 的角色，帮助查询向量定位信息； $d_k$ 是键向量的维度；而 $b_{ij}$ 就是键 - 查询偏移量对应的偏置项，它携带了位置 i 和 j 之间相对位置的关键信息。