RoPE旋转位置编码图形化理解

原创已于 2024-05-19 21:48:13 修改 · 1.6k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#nlp #transformer

于 2023-07-15 21:31:35 首次发布

论文解读专栏收录该内容

6 篇文章

订阅专栏

看此篇文章之前可参考：

旋转位置编码创作者苏神博客： Transformer升级之路：2、博采众长的旋转式位置编码
优质博主解析：一文通透位置编码：从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long

很多博文用数学公式推导描述了RoPE的原理，但如果你看完之后还是云里雾里，可通过本篇文章进一步理解，用图形的方式形象化的展示RoPE的作用；

首先，RoPE的核心思想是通过绝对位置编码的方式实现相对位置编码，本文主要围绕下图进行介绍；
在这里插入图片描述

假设一个序列 $s = [s_1, s_2, ...,s_{100}]$ （为了直观，这里取1作为起始位置，以下同理），要计算第100个位置上的注意力，需要得到 $q_{100}*[k_1, k_2, ...,k_{100}]$ ，由于是自注意力，这里的 $q_{100}=k_{100}$ ，如果是常规的绝对位置编码，这里的 $q=q_{词嵌入}+q_{绝对位置嵌入}$ ， $k$ 也相同；

在RoPE中，取 $q=q_{词嵌入}$ ，同时假设隐层维度是768，则 $q_{100}=[q_{100,1},q_{100,2}, ...,q_{100,768}]$ ，因为在RoPE中相当于是二维旋转编码，所以两个两个进行旋转计算，先取 $q_{100} = [q_{100,1},q_{100,2}]$ ，同理 $k_1至k_{100}$ 也只取前两维。

假设这100个词的词嵌入都相等（为了更明显的看出旋转位置带来的差异，后面再解释词嵌入的差异）。由于这里只取二维，所以可以表示成向量的形式，假设所有的词嵌入都用图中A向量表示。
$\left( \begin{matrix} \text{cos }m\theta & \text{-sin }m\theta \\ \text{sin }m\theta & \text{cos }m\theta \\ \end{matrix} \right) \tag{1}$
旋转矩阵如公式(1)所示，一个向量与旋转矩阵相乘后会逆时针旋转 $m\theta$ 角度。如式(2)的例子和图形示例。
$\left( \begin{matrix} \cos\frac{\pi}{4} & -\sin \frac{\pi}{4} \\ \sin \frac{\pi}{4} & \cos\frac{\pi}{4} \\ \end{matrix} \right) \left( \begin{matrix} 1 \\0 \\ \end{matrix} \right)= \left( \begin{matrix} \cos\frac{\pi}{4} \\\sin \frac{\pi}{4} \\ \end{matrix} \right)= \left( \begin{matrix} \frac{\sqrt2}{2} \\ \frac{\sqrt2}{2} \\ \end{matrix} \right) \tag{2}$
在这里插入图片描述

现在每个词嵌入都需融入一个绝对位置嵌入，融入的方式不是常规的与词嵌入相加，而是进行旋转，旋转角度为 $m\theta$ ， $\theta$ 用一个固定的角度表示， $m$ 代表当前的位置下标。

比如序列 $q_1$ 旋转 $\theta$ 角得到图中B向量， $q_{10}$ 旋转 $10*\theta$ 角得到图中C向量， $q_{100}$ 旋转 $100*\theta$ 角得到图中D向量。这里旋转之后也带来了余弦相似度的变化， $q_{100}$ 与 $k_{100}$ 相似度为1，可以赋予较高的注意力权重，而 $q_{100}$ 与 $k_{10}$ 之间则有 $90*\theta$ 角度相似度的差异。所以可以说通过绝对位置编码的方式实现了相对位置编码。