Sinusoidal(正弦曲线)位置编码公式详细推导过程

Sinusoidal(正弦曲线)位置编码公式推导

参考链接

Transformer升级之路:1、Sinusoidal位置编码追根溯源

1. 前置数学的基本概念

1.1 内积

  • 定义: 内积是两个向量之间的一种运算,其结果为一个标量。
  • 公式: 对于向量 a = [ a 1 , a 2 , … , a n ] a = [a_1, a_2, \dots, a_n] a=[a1,a2,,an] b = [ b 1 , b 2 , … , b n ] b = [b_1, b_2, \dots, b_n] b=[b1,b2,,bn],内积定义为
    ⟨ a , b ⟩ = a 1 b 1 + a 2 b 2 + ⋯ + a n b n \langle a, b \rangle = a_1 b_1 + a_2 b_2 + \cdots + a_n b_n a,b=a1b1+a2b2++anbn
  • 解释: 即将两个向量对应元素相乘后求和。

1.2 复数及其性质

  • 复数: 形式为 a + b i a+bi a+bi,其中 a , b a, b a,b 为实数, i i i 为虚数单位,满足 i 2 = − 1 i^2 = -1 i2=1
  • 复数的共轭: 对于复数 a + b i a + bi a+bi,其共轭为 a − b i a - bi abi
  • 实部与虚部: 对于 a + b i a + bi a+bi,实部为 a a a,虚部为 b b b

1.3 复数的指数形式

  • 模长: 对于复数 z = a + b i z = a + bi z=a+bi,其模长为
    r = a 2 + b 2 r = \sqrt{a^2 + b^2} r=a2+b2
  • 幅角: 幅角为
    ϕ = tan ⁡ − 1 ( b a ) \phi = \tan^{-1} \left(\frac{b}{a}\right) ϕ=tan1(ab)
  • 指数表示:
    故复数可写为
    z = r e i ϕ z = r e^{i \phi} z=reiϕ

1.4 复数的欧拉公式

e i θ = cos ⁡ ( θ ) + i sin ⁡ ( θ ) e^{i \theta} = \cos(\theta) + i \sin(\theta) eiθ=cos(θ)+isin(θ)


2. 推导过程

2.1 Sinusoidal的相对位置编码

在Transformer里,因为输入的Token是并行输入的,所以模型并不能知道输入的Token的先后顺序的位置信息。但是位置信息有助于模型区分不同的输入Token从而更好地理解输入的内容,因此需要给模型输入位置信息。

在Transformer里,给模型输入位置信息的是绝对位置编码,位置编码只跟当前位置有关,而且各个位置编码之间是互相独立的。但位置之间不是互相独立的,而是邻近之间的位置编码越相关,而距离较远的位置之间的位置编码应尽量不相关。

而相对位置编码则能够解决这个问题。相对位置编码不是考虑当前位置,而是考虑当前位置和其他位置之间的关系,它们之间的关系应该满足:位置向量之间的内积只依赖于位置差。假设当前位置 m m m和它对应的位置向量 p m p_m pm,另一个位置 n n n和它对应的位置向量$p_n $。

假设存在一个函数 g g g使得
< p m , p n > = g ( m − n ) <p_m, p_n> = g(m - n) <pm,pn>=g(mn)

这也被称为使用绝对位置编码( < p m , p n > <p_m, p_n > <pm,pn>)实现相对位置编码( g ( m − n ) g(m - n) g(mn)

2.2 二维向量的内积

  • 复数与二维向量的对应:
    将二维向量 [ x , y ] [x, y] [x,y] 视为复数 x + y i x + yi x+yi

  • 复数乘法法则:
    对于复数 z 1 = a + b i z_1 = a + bi z1=a+bi z 2 = c + d i z_2 = c + di z2=c+di,有
    z 1 z 2 = ( a + b i ) ( c + d i ) = ( a c − b d ) + ( a d + b c ) i z_1 z_2 = (a + bi)(c + di) = (ac - bd) + (ad + bc)i z1z2=(a+bi)(c+di)=(acbd)+(ad+bc)i

  • 内积关系:
    取乘积的实部,便得到
    R e ( z 1 z 2 ) = a c − b d \mathrm{Re}(z_1 z_2) = ac - bd Re(z1z2)=acbd
    这正好等同于向量 [ a , b ] [a, b] [a,b] [ c , d ] [c, d] [c,d] 的内积。

  • 应用:
    对于复数形式的向量
    p m = x m + y m i , p n = x n + y n i p_m = x_m + y_m i, \quad p_n = x_n + y_n i pm=xm+ymi,pn=xn+yni
    内积可表示为
    ⟨ p m , p n ⟩ = R e ( p m p n ∗ ) = x m x n + y m y n \langle p_m, p_n \rangle = \mathrm{Re}(p_m p_n^*) = x_m x_n + y_m y_n pm,pn=Re(pmpn)=xmxn+ymyn
    其中 p n ∗ p_n^* pn p n p_n pn 的共轭,即 p n ∗ = x n − y n i p_n^* = x_n - y_n i pn=xnyni

2.3 构造满足相对位置信息的假设

  • 为使内积仅依赖于位置差,假设存在复数 q m − n q_{m-n} qmn 使得
    p m p n ∗ = q m − n p_m p_n^* = q_{m-n} pmpn=qmn
  • 取实部后便有
    ⟨ p m , p n ⟩ = R e ( q m − n ) \langle p_m, p_n \rangle = \mathrm{Re}(q_{m-n}) pm,pn=Re(qmn)

2.4 使用复数的指数形式

  • 表示: 将复数写成指数形式
    p m = r m e i ϕ m , p n ∗ = r n e − i ϕ n , q m − n = R m − n e i Φ m − n p_m = r_m e^{i \phi_m}, \quad p_n^* = r_n e^{-i \phi_n}, \quad q_{m-n} = R_{m-n} e^{i \Phi_{m-n}} pm=rmeiϕm,pn=rneiϕn,qmn=RmneiΦmn
  • 代入关系式:
    将上述表达式代入 p m p n ∗ = q m − n p_m p_n^* = q_{m-n} pmpn=qmn
    r m r n e i ( ϕ m − ϕ n ) = R m − n e i Φ m − n r_m r_n e^{i(\phi_m - \phi_n)} = R_{m-n} e^{i\Phi_{m-n}} rmrnei(ϕmϕn)=RmneiΦmn
  • 拆分成两部分:
    • 模长关系:
      r m r n = R m − n r_m r_n = R_{m-n} rmrn=Rmn
    • 角度关系:
      ϕ m − ϕ n = Φ m − n \phi_m - \phi_n = \Phi_{m-n} ϕmϕn=Φmn

2.5 求解方程

  • 求解模长:
    n = m n = m n=m
    r m 2 = R 0 r_m^2 = R_0 rm2=R0
    为简化,令 R 0 = 1 R_0 = 1 R0=1,则 r m = 1 r_m = 1 rm=1,即所有位置编码的模长均为 1。

  • 求解角度:

    1. n = 0 n = 0 n=0,有
      ϕ m − ϕ 0 = Φ m \phi_m - \phi_0 = \Phi_m ϕmϕ0=Φm
      ϕ 0 = 0 \phi_0 = 0 ϕ0=0,则 ϕ m = Φ m \phi_m = \Phi_m ϕm=Φm,即
      ϕ m − ϕ n = ϕ m − n \phi_m - \phi_n = \phi_{m-n} ϕmϕn=ϕmn
    2. n = m − 1 n = m - 1 n=m1,则
      ϕ m − ϕ m − 1 = ϕ 1 \phi_m - \phi_{m-1} = \phi_1 ϕmϕm1=ϕ1
      这说明 { ϕ m } \{\phi_m\} {ϕm} 为等差数列,其通解为
      ϕ m = m θ \phi_m = m \theta ϕm=mθ
      其中 θ \theta θ 为常数。
  • 得到二维位置编码:
    由上述可得
    p m = e i m θ = cos ⁡ ( m θ ) + i sin ⁡ ( m θ ) p_m = e^{i m \theta} = \cos(m \theta) + i\sin(m \theta) pm=eimθ=cos(mθ)+isin(mθ)
    以向量形式表示为
    p m = ( cos ⁡ ( m θ ) sin ⁡ ( m θ ) ) p_m = \begin{pmatrix} \cos(m \theta) \\ \sin(m \theta) \end{pmatrix} pm=(cos(mθ)sin(mθ))

2.6 高维情况

  • 原理:
    利用内积的线性性质,更高维(偶数维)的位置信息可由多个二维位置编码组合而成。
  • 表示:
    若维度 d d d 为偶数,则用不同角度 θ k \theta_k θk ` 表示每个二维编码,得到 d d d 维位置编码:
    p m = ( cos ⁡ ( m θ 0 ) sin ⁡ ( m θ 0 ) cos ⁡ ( m θ 1 ) sin ⁡ ( m θ 1 ) ⋮ cos ⁡ ( m θ d 2 − 1 ) sin ⁡ ( m θ d 2 − 1 ) ) p_m = \begin{pmatrix} \cos(m \theta_0) \\ \sin(m \theta_0) \\ \cos(m \theta_1) \\ \sin(m \theta_1) \\ \vdots \\ \cos\left(m \theta_{\frac{d}{2}-1}\right) \\ \sin\left(m \theta_{\frac{d}{2}-1}\right) \end{pmatrix} pm= cos(mθ0)sin(mθ0)cos(mθ1)sin(mθ1)cos(mθ2d1)sin(mθ2d1)

3. 总结

  • 通过复数的表示和指数形式,将二维位置编码问题转化为求解模长与角度的关系。
  • 在简化假设下(如 R 0 = 1 R_0 = 1 R0=1 ϕ 0 = 0 \phi_0 = 0 ϕ0=0),可得 ϕ m = m θ \phi_m = m \theta ϕm=mθ,从而得到二维位置编码表达式
    p m = e i m θ = cos ⁡ ( m θ ) + i sin ⁡ ( m θ ) p_m = e^{i m \theta} = \cos(m \theta) + i \sin(m \theta) pm=eimθ=cos(mθ)+isin(mθ)
  • 高维位置编码则视为多个二维编码的线性叠加,每个编码对应一个不同的角度 θ k \theta_k θk
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值