深入理解自注意力机制与位置编码——基于d2l-zh项目的解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01046/article/details/148323599

深入理解自注意力机制与位置编码——基于d2l-zh项目的解析

d2l-zh 《动手学深度学习》：面向中文读者、能运行、可讨论。中英文版被70多个国家的500多所大学用于教学。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-zh

引言

在自然语言处理领域，如何有效地处理序列数据一直是个核心问题。传统方法如循环神经网络(RNN)和卷积神经网络(CNN)各有优劣，而自注意力机制(self-attention)的提出为序列建模带来了全新的思路。本文将深入探讨自注意力机制的工作原理，以及如何通过位置编码(positional encoding)来保留序列的顺序信息。

自注意力机制详解

基本概念

自注意力是一种特殊的注意力机制，其核心特点是查询(query)、键(key)和值(value)都来自同一组输入序列。给定一个输入序列X = [x₁, x₂, ..., xₙ]，其中每个xᵢ ∈ ℝᵈ，自注意力会为每个位置i计算一个输出yᵢ：

yᵢ = f(xᵢ, (x₁, x₁), ..., (xₙ, xₙ)) ∈ ℝᵈ

这里f是注意力汇聚函数，它使每个位置都能关注序列中的所有位置，从而捕捉全局依赖关系。

实现方式

在实际实现中，我们通常使用多头注意力(MultiHeadAttention)来增强模型的表达能力。多头注意力允许模型在不同的表示子空间中学习不同的注意力模式。例如，我们可以设置：

num_hiddens = 100  # 隐藏层维度
num_heads = 5      # 注意力头数
attention = MultiHeadAttention(num_hiddens, num_heads, 0.5)

这种实现能够并行处理整个序列，计算效率远高于RNN的串行处理方式。

与传统架构的比较

计算复杂度分析

卷积神经网络(CNN):
- 计算复杂度: O(knd²) (k为卷积核大小)
- 顺序操作: O(1)
- 最大路径长度: O(n/k)
循环神经网络(RNN):
- 计算复杂度: O(nd²)
- 顺序操作: O(n)
- 最大路径长度: O(n)
自注意力(Self-Attention):
- 计算复杂度: O(n²d)
- 顺序操作: O(1)
- 最大路径长度: O(1)

优缺点对比

自注意力的主要优势在于：

极短的最大路径长度(O(1))，有利于学习长距离依赖
完全并行化计算
全局感受野

但它的计算复杂度随序列长度呈二次方增长，在处理超长序列时可能成为瓶颈。

位置编码技术

为什么需要位置编码

自注意力机制本身是位置无关的(permutation invariant)，这意味着打乱输入序列的顺序不会影响其输出。为了保留序列的顺序信息，我们需要引入位置编码。

正弦/余弦位置编码

最常用的位置编码方式是基于三角函数的位置编码，定义如下：

对于位置i和维度2j/2j+1： p_{i,2j} = sin(i/10000^{2j/d}) p_{i,2j+1} = cos(i/10000^{2j/d})

这种编码方式有以下几个特点：

不同维度对应不同的频率，低频维度变化慢，高频维度变化快
允许模型学习相对位置关系
可以处理比训练时更长的序列

实现示例

class PositionalEncoding(nn.Module):
    def __init__(self, num_hiddens, dropout, max_len=1000):
        super().__init__()
        self.dropout = nn.Dropout(dropout)
        self.P = torch.zeros((1, max_len, num_hiddens))
        X = torch.arange(max_len, dtype=torch.float32).reshape(-1, 1) / torch.pow(
            10000, torch.arange(0, num_hiddens, 2, dtype=torch.float32) / num_hiddens)
        self.P[:, :, 0::2] = torch.sin(X)
        self.P[:, :, 1::2] = torch.cos(X)