【一、基础篇】Q4：位置编码的作用是什么？-优快云博客

位置编码（Positional Encoding）是Transformer架构中的关键组件，它的核心作用是为模型提供序列中元素的位置和顺序信息。由于Transformer的自注意力机制本身不具备感知顺序的能力，位置编码确保了模型能够理解像“猫追狗”和“狗追猫”这种词序不同则语义不同的关键区别。

为了让你快速把握全貌，下表总结了位置编码需要解决的核心问题、其关键作用以及主流的实现方案。

维度的作用	核心问题	位置编码的解决方案	主流技术举例
为什么需要？	自注意力机制是无序的，无法区分序列顺序。	为每个位置生成一个独特的编码向量，与词向量相加，将顺序信息注入模型。	-
核心作用是什么？	1. 表示绝对位置：让模型知道每个词在序列中的具体位置。 2. 表征相对位置：让模型理解词与词之间的相对距离和关系。 3. 支持长度外推：一定程度上处理比训练时更长的序列。	通过数学设计（如正弦余弦函数的周期性），使编码本身蕴含相对位置信息，并具备一定的泛化能力。	正弦余弦编码、旋转位置编码 (RoPE)
如何实现？	如何有效且高效地将位置信息编码进模型。	1. 绝对位置编码：为每个位置分配一个独一无二的向量。 2. 相对位置编码：直接建模词对之间的相对距离。 3. 旋转位置编码 (RoPE)：一种流行的方案，在计算注意力时融入相对位置信息。	正弦余弦编码 , 可学习编码 , ALiBi, RoPE

💡 深入理解位置编码

自注意力机制的无序性

你可以将Transformer的自注意力机制理解为一个“民主会议”：每个词（token）都可以与序列中的所有其他词进行信息交流并加权汇总。然而，这个机制本身是位置无关的——它只关心“谁说了什么”，而不关心“谁在什么顺序说的”。如果没有位置信息，模型会将“猫追狗”和“狗追猫”视为完全相同的输入集合，无法理解它们截然不同的含义。位置编码的作用就像是给会场里的每个参与者发一个标有座次号的胸牌，让模型能够重建序列的顺序信息。

主流位置编码方式

正弦余弦编码
这是原始Transformer论文提出的方法。它使用正弦和余弦函数来生成每个位置的编码向量，其计算公式如下：
PE(pos, 2i) = sin(pos / (10000^(2i/d_model)))
PE(pos, 2i+1) = cos(pos / (10000^(2i/d_model)))
其中，pos是位置，i是维度索引，d_model是模型维度。
- 优点：是确定的，无需学习；具有一定的外推性，能处理比训练时更长的序列。
- 缺点：相对位置关系是间接学习的，对于超长序列的建模可能不足。
可学习的位置编码
这种方式将位置编码视为可训练的模型参数，随模型一起训练。
- 优点：灵活，模型可以学习到最适合当前任务的位置表示。
- 缺点：其外推能力受限于训练时见过的最大序列长度，难以泛化到更长的序列。
相对位置编码与RoPE
后续的研究发现，在自然语言中，词语之间的相对位置关系（例如“我”和“你”相隔3个词）往往比绝对位置（“我”在句子的第5个词）更重要。因此，出现了像RoPE（Rotary Positional Encoding）这样的编码方式。RoPE不再为每个词添加一个固定的位置向量，而是在计算注意力分数的过程中，通过旋转的方式将相对位置信息融入Query和Key向量。这种方式能更好地捕捉相对位置关系，并且在外推性上表现优异，因此被LLaMA、ChatGLM等众多现代大模型所采用。