(1)三个Embedding相加的逻辑
Bert采用的是将这三个嵌入向量简单相加,而不是直接拼接(concat)。这是因为在高维空间中,线性加法能够通过对每个维度的线性组合,保持各自嵌入的特征独立性。尽管相加看似简单,但它能够很好地融合来自词、位置和段落的三种不同信息,使得模型可以捕捉到句子中每个词的语义、顺序和段落关系。
(2)相对位置的更优解:RoPE
尽管Bert通过直接相加的方式来处理这些Embedding,后来一些技术方案如RoPE(旋转位置嵌入)则提出了更具数学性和结构性的改进。RoPE利用旋转周期性来编码相对位置关系,并结合张量代数的原理,实现更精确的嵌入表示。这种方法不仅保留了位置的周期性,还提高了模型的泛化能力。
(3)更复杂的代数结构
在RoPE的设计中,引入了类似于复数的结构,通过旋转变换来表示位置信息的变化,这大大优化了传统位置嵌入方法。通过更复杂的代数结构,如哈密尔顿代数,可以在多维空间中进行旋转,从而为更复杂的任务提供了理论支持。这种方式比简单的线性加法更具弹性,适用于更高维度的任务场景。