transformer(三) 位置编码以及旋转位置编码RoPE详解

最新推荐文章于 2025-11-29 23:33:06 发布

原创最新推荐文章于 2025-11-29 23:33:06 发布 · 947 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

深度学习专栏收录该内容

7 篇文章

订阅专栏

1. 为什么需要位置编码

在NLP任务中，一个单词的位置和它在句子中的语义是息息相关的，比如“我爱你”和“你爱我”，单词的顺序和位置发生了改变，整个句子的语义也发生了改变。

在RNN或者LSTM中，模型本身就包含了时序信息，RNN的循环结构使得模型在处理序列数据时，能够自然地捕捉到序列中的顺序关系。每个时间步的输出都依赖于前一个时间步的隐藏状态，这种依赖关系使得模型能够记住并利用序列中元素的顺序信息。

但是对于Transformer模型来说，它本身是一个完全基于自注意力机制（Self-Attention）的模型，它在处理输入序列时，是把所有的单词看作一个集合，而不是一个序列，也就是说，它无法直接捕捉到单词之间的顺序关系。

为了解决这个问题，Transformer引入了位置编码（Positional Encoding），它的主要作用就是给模型提供关于单词位置的信息。

2. 绝对位置编码

在原始的Transformer论文《Attention Is All You Need》中，作者提出了一种基于 $s in$ 和 $cos$ 函数的绝对位置编码方法。这种方法为输入序列中的每个位置生成一个固定维度的向量，然后将这个向量与对应的词嵌入向量相加，作为模型的输入。

在这里插入图片描述

具体的公式如下：

$PE(pos,2i)=sin⁡(pos/100002i/dmodel)PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{\text{model}}})$

$PE(pos,2i+1)=cos⁡(pos/100002i/dmodel)PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d_{\text{model}}})$

其中：

$p os$ 是单词在句子中的位置。
$i$ 是位置编码向量中的维度索引。
$dmodeld_{\text{model}}$ 是模型的维度，也就是词嵌入的维度。

通过这个公式，我们可以为每个位置生成一个 $dmodeld_{\text{model}}$ 维的位置编码向量。这个向量的每个维度都由一个正弦或余弦函数生成，并且频率随着维度的增加而降低。

为什么这种方法有效呢？

主要是在每个位置上都生成了一个唯一的位置编码向量，这个向量包含了单词在句子中的绝对位置信息。且 $s in$ 和 $cos$ 的值域在 $[- 1, 1]$ 之间，这有助于稳定模型的训练。

3. 旋转位置编码（RoPE）

尽管绝对位置编码在很多任务上都取得了不错的效果，但它也存在一些问题。因为训练集中的短文本更多，导致绝对位置中长文本的位置编码信息被忽略，模型无法利用到长文本的位置信息。

由此引入相对位置编码，它希望对在计算自注意时，能够利用到单词之间的相对位置关系。只要在计算自注意力时，有相对位置信息参与了计算，模型就能够利用到单词之间的相对位置关系（如两个token位置分别是 $i$ 和 $j$ ，那么它们的相对位置就是 $i - j$ ）。

为了解决这些问题，旋转位置编码（Rotary Positional Embedding, RoPE）被提出来了。RoPE的核心思想是通过旋转操作来表示相对位置关系。

具体来说，RoPE不再是将位置信息直接加到词嵌入上，而是在自注意力机制的计算过程中，将位置信息融入到Query和Key向量中。

再引入RoPE之前，必须先了解一下旋转矩阵的基础。

3.1 旋转矩阵基础

什么是旋转矩阵，假设我们有一个点 $A$ ，我们将其以原点为中心，逆时针旋转 $β\beta$ 角度，得到新的点 $A^{'}$ 。那么其旋转矩阵是如何得到的？

在这里插入图片描述

根据旋转矩阵的意义，我们再看下它的特点:

在这里插入图片描述

3.2 RoPE介绍

RoPE将这个思想应用到了高维的Query和Key向量上。因为旋转矩阵是一个二维矩阵，所以它将 $d$ 维的向量两两配对，然后在每个二维子空间中进行旋转。因此构建一个巨大的旋转矩阵，它的构建方式如下：

在这里插入图片描述

这里 $t$ 是token的位置， $θ\theta$ 是固定的角度值（是固定值，不需要学习）， $H$ 是向量的维度。
这个矩阵参考书籍《大语言模型》。

这个矩阵特殊构造成这个形式的，是固定预先生成好的，不需要模型学习。大家了解下就行，关键是了解它是如何参与注意力计算的，以及为什么它能够引入相对位置信息。

对于位置为 $m$ 的Query向量 $qm\mathbf{q}_m$ 和位置为 $n$ 的Key向量 $kn\mathbf{k}_n$ ，RoPE通过以下方式将位置信息融入进去：

$f(q,m)=RΘ,mdqf(\mathbf{q}, m) = \mathbf{R}_{\Theta, m}^d \mathbf{q}$
$f(k,n)=RΘ,ndkf(\mathbf{k}, n) = \mathbf{R}_{\Theta, n}^d \mathbf{k}$

其中 $RΘ,md\mathbf{R}_{\Theta, m}^d$ 是一个旋转矩阵。经过这样的变换后，我们再计算它们的内积：

$<f(q,m),f(k,n)>=(RΘ,mdq)T(RΘ,ndk)=qT(RΘ,md)TRΘ,ndk<f(\mathbf{q}, m), f(\mathbf{k}, n)> = (\mathbf{R}_{\Theta, m}^d \mathbf{q})^T (\mathbf{R}_{\Theta, n}^d \mathbf{k}) = \mathbf{q}^T (\mathbf{R}_{\Theta, m}^d)^T \mathbf{R}_{\Theta, n}^d \mathbf{k}$

由于旋转矩阵是正交矩阵，我们有 $(RΘ,md)T=(RΘ,md)−1=RΘ,−md(\mathbf{R}_{\Theta, m}^d)^T = (\mathbf{R}_{\Theta, m}^d)^{-1} = \mathbf{R}_{\Theta, -m}^d$ 。因此：

$<f(q,m),f(k,n)>=qTRΘ,−mdRΘ,ndk=qTRΘ,n−mdk<f(\mathbf{q}, m), f(\mathbf{k}, n)> = \mathbf{q}^T \mathbf{R}_{\Theta, -m}^d \mathbf{R}_{\Theta, n}^d \mathbf{k} = \mathbf{q}^T \mathbf{R}_{\Theta, n-m}^d \mathbf{k}$