该问题归类到Transformer架构问题集——位置编码——相对位置编码。请参考LLM数学推导——Transformer架构问题集。
1. RoPE 背景与复数形式引入
在自然语言处理领域,Transformer 架构凭借自注意力机制成为主流模型,但该架构本身不具备捕捉序列顺序信息的能力,因此位置编码是不可或缺的组成部分。传统位置编码方法如绝对位置编码和相对位置编码存在一定局限性,例如绝对位置编码难以建模长距离依赖,相对位置编码在处理复杂语义关系时能力有限。
旋转位置编码(RoPE)通过对词向量进行旋转操作来融入位置信息,突破了传统方法的瓶颈。RoPE 的复数形式将复数的旋转特性与位置编码相结合,从数学本质上改变了位置信息的嵌入方式。复数在数学中可表示为 的形式(a,b 为实数,i 为虚数单位),而 RoPE 中位置编码
(
与位置信息相关),通过复数乘法
实现词向量 v 的旋转,从而完成位置信息的嵌入。
2. 数学理论:从复数旋转到注意力分数影响
2.1 复数基础与旋转操作
在复平面中,复数乘法对应向量的旋转与缩放操作。在 RoPE 的复数形式中,词向量 v 与位置编码复数 p 相乘,实现了对词向量的旋转。具体来说,若词向量 v 表示为复数形式 ,与位置编码复数
相乘后得到:

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



