Transformer数学推导——Q32 可学习位置编码的梯度更新公式推导

最新推荐文章于 2025-10-28 07:34:23 发布

原创最新推荐文章于 2025-10-28 07:34:23 发布 · 1.2k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #学习 #深度学习 #位置编码

部署运行你感兴趣的模型镜像

该问题归类到Transformer架构问题集——位置编码——绝对位置编码。请参考LLM数学推导——Transformer架构问题集。

1. 可学习位置编码简介

在自然语言处理以及诸多涉及序列数据处理的深度学习模型中，位置编码起着关键作用。传统的位置编码，如正弦位置编码，是基于固定的数学公式生成的，为模型提供序列中元素的位置信息。而可学习位置编码则有所不同，它将位置编码作为模型的参数，让模型在训练过程中自动学习这些编码，以更好地适应特定的任务和数据分布。

想象一下，模型就像是一个聪明的学生，在学习处理序列数据（比如文本句子）时，传统位置编码就像是老师直接告诉学生一种固定的位置表示方法，而可学习位置编码则像是给学生一张白纸，让学生自己去摸索出最适合当前学习任务的位置表示方式。这样一来，模型就有了更大的灵活性和适应性。

可学习位置编码通常被初始化为一组随机值，然后在训练过程中随着模型的优化不断调整，以使得模型在相关任务上表现得更好，比如在文本生成任务中生成更连贯、逻辑更合理的句子，或者在机器翻译任务中实现更准确的翻译。

2. 涉及的相关概念与模型结构

可学习位置编码常常与 Transformer 模型紧密相关。在 Transformer 中，输入序列的每个元素首先会被嵌入到一个向量空间中，得到词嵌入（word - embedding），然后加上对应的位置编码，形成最终的输入表示。

假设我们有一个输入序列 $x = [x_1, x_2, \cdots, x_n]$ ，其中 $x_i$ 是序列中的第i个元素。词嵌入将每个 $x_i$ 映射为一个向量 $e_i$ ，同时，我们有可学习的位置编码 $p_i$ ，那么最终的输入表示 $h_i = e_i + p_i$ 。

在 Transformer 的后续层中，如多头注意力层（Multi - Head Attention）和前馈神经网络层（Feed - Forward Neural Network），会基于这些输入表示进行一系列的计算和特征提取，以完成诸如分类、生成等任务。

3. 梯度更新公式推导

3.1 定义损失函数

为了推导可学习位置编码的梯度更新公式，我们首先需要定义一个损失函数L，用于衡量模型预测结果与真实结果之间的差异。在不同的任务中，损失函数的形式可能不同。例如，在文本分类任务中，常用交叉熵损失函数；在文本生成任务中，可能会使用负对数似然损失函数等。

假设我们的模型输出为 $\hat{y}$ ，真实标签为y，对于分类任务，交叉熵损失函数可以表示为： $L = -\sum_{i = 1}^{C}y_i\log(\hat{y}_i)$ 其中C是类别数， $y_i$ 和 $\hat{y}_i$ 分别是真实标签和模型预测在第i个类别的概率。

3.2 计算梯度

我们的目标是通过最小化损失函数L来更新模型的参数，包括可学习位置编码。根据链式法则，我们来计算损失函数L关于可学习位置编码 $p_j$ 的梯度 $\frac{\partial L}{\partial p_j}$ 。

首先，从最终的损失函数L开始，它是通过模型的一系列计算得到的。模型的计算过程涉及到输入表示 $h_i$ ，而 $h_i = e_i + p_i$ 。

在 Transformer 的计算过程中，假设经过多头注意力层和前馈神经网络层等一系列计算后得到输出 $\hat{y}$ ，我们可以将这个计算过程看作是一个复合函数f，即 $\hat{y} = f(h_1, h_2, \cdots, h_n)$ 。

那么，根据链式法则： $\frac{\partial L}{\partial p_j}=\frac{\partial L}{\partial \hat{y}}\cdot\frac{\partial \hat{y}}{\partial h_j}\cdot\frac{\partial h_j}{\partial p_j}$

其中， $\frac{\partial L}{\partial \hat{y}}$ 是损失函数关于模型输出的梯度，这部分的计算取决于具体的损失函数形式； $\frac{\partial \hat{y}}{\partial h_j}$ 是模型输出关于输入表示 $h_j$ 的梯度，它与 Transformer 内部的计算结构相关；而 $\frac{\partial h_j}{\partial p_j}$ 由于 $h_j = e_j + p_j$ ，所以 $\frac{\partial h_j}{\partial p_j}=1$ 。

3.3 梯度更新

在得到梯度 $\frac{\partial L}{\partial j}$ 后，我们使用优化算法（如随机梯度下降 SGD、Adam 等）来更新可学习位置编码 $p_j$ 。以随机梯度下降为例，更新公式为： $p_j^{new}=p_j - \alpha\frac{\partial L}{\partial p_j}$ 其中 $\alpha$ 是学习率，它控制着每次参数更新的步长。

4. 在 LLM 中的使用及示例

4.1 文本生成

在生成小说、诗歌等文本时，可学习位置编码能让模型更好地捕捉文本的逻辑和连贯性。比如在生成一部奇幻小说时，模型需要根据前文的情节和角色设定来生成后续内容。可学习位置编码在训练过程中会学习到不同情节和描述在文本中的位置重要性。

假设前文描述了主角在神秘森林中的冒险，当模型要生成主角遇到神秘生物的情节时，可学习位置编码会帮助模型将这个新情节与前文的森林冒险位置关系处理好，使得生成的内容如 “主角在森林深处徘徊时，突然一只闪烁着奇异光芒的生物出现在眼前，它似乎对主角的到来并不意外” 自然流畅，符合整体的奇幻风格和逻辑顺序。

4.2 知识图谱相关任务

在知识图谱的补全任务中，需要判断实体之间的关系。可学习位置编码可以帮助模型学习到不同实体在图谱中的位置信息以及它们之间关系的位置依赖。

例如，在一个关于历史人物的知识图谱中，有 “牛顿”“爱因斯坦” 等实体，以及 “科学家”“提出理论” 等关系。模型在处理 “牛顿提出了万有引力定律” 和 “爱因斯坦提出了相对论” 等信息时，可学习位置编码能让模型更好地理解这些实体和关系在图谱中的位置联系，从而更准确地预测如 “牛顿和爱因斯坦都是伟大的科学家，他们的理论对科学界产生了深远影响” 这样的关系补全内容。

4.3 对话系统

在对话系统中，可学习位置编码有助于模型理解对话的上下文和轮次关系。比如在一个多轮对话中：用户：“我最近想去旅行。” 模型：“那你有没有心仪的目的地呢？” 用户：“我想去海边。” 模型：“海边是个很不错的选择呢，你是想去国内的还是国外的海边呀？”

可学习位置编码能让模型在每一轮对话中，根据前文的对话内容和位置信息，生成合适的回复，保持对话的连贯性和逻辑性。

5. 代码示例（基于 PyTorch）

import torch
import torch.nn as nn

class ModelWithLearnablePositionalEncoding(nn.Module):
    def __init__(self, vocab_size, embed_dim, max_seq_len):
        super(ModelWithLearnablePositionalEncoding, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim)
        self.positional_encoding = nn.Parameter(torch.randn(max_seq_len, embed_dim))

    def forward(self, x):
        batch_size, seq_len = x.size()
        embeddings = self.embedding(x)
        position_embeddings = self.positional_encoding.unsqueeze(0).repeat(batch_size, 1, 1)
        output = embeddings + position_embeddings
        return output

6. 代码解释

在__init__函数中，我们定义了词嵌入层self.embedding，它将输入的词汇索引映射为词嵌入向量。同时，定义了可学习的位置编码self.positional_encoding，它是一个nn.Parameter类型的张量，初始值是随机生成的，大小为(max_seq_len, embed_dim)，其中max_seq_len是输入序列的最大长度，embed_dim是嵌入维度。
在forward函数中，首先对输入x进行词嵌入得到embeddings。然后将可学习的位置编码self.positional_encoding进行扩展，使其能够与词嵌入相加，得到最终的输入表示output，这个output将被送入后续的模型层进行处理。

7. 总结

可学习位置编码为模型在处理序列数据时提供了更加灵活和自适应的位置表示方式。通过详细的梯度更新公式推导，我们了解了它在模型训练过程中的优化机制。在 LLM 的多种应用场景中，它都展现出了强大的作用，帮助模型更好地处理位置信息，提升任务表现。结合代码示例，我们也对可学习位置编码在实际模型中的实现有了更直观的认识。随着深度学习的不断发展，可学习位置编码有望在更多复杂任务中发挥更大的价值。

您可能感兴趣的与本文相关的镜像