Dive-into-DL-PyTorch项目解析：深入理解注意力机制-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00214/article/details/148375689

Dive-into-DL-PyTorch项目解析：深入理解注意力机制

Dive-into-DL-PyTorch 本项目将《动手学深度学习》(Dive into Deep Learning)原书中的MXNet实现改为PyTorch实现。项目地址: https://gitcode.com/gh_mirrors/di/Dive-into-DL-PyTorch

引言

在自然语言处理领域，注意力机制(Attention Mechanism)已经成为现代深度学习模型的核心组件之一。本文将从技术原理出发，结合Dive-into-DL-PyTorch项目中的相关内容，系统性地讲解注意力机制的工作机制、数学表达和实际应用。

注意力机制的起源与动机

传统的编码器-解码器(seq2seq)模型在处理序列数据时存在一个明显缺陷：解码器在各个时间步都使用相同的背景变量(context vector)来获取输入序列信息。这种设计在长序列处理时尤其不利，因为模型难以区分不同时间步输入信息的重要性。

以机器翻译为例，当我们将英文句子"They are watching."翻译为法文"Ils regardent."时，解码器在不同时间步应该关注输入序列的不同部分：

生成"Ils"时主要关注"They are"
生成"regardent"时主要关注"watching"
生成句号时直接对应输入句号

注意力机制正是为了解决这一问题而提出的，它允许模型动态地为输入序列的不同部分分配不同的"注意力"权重。

注意力机制的工作原理

1. 背景变量的动态计算

在注意力机制中，解码器在时间步t'的背景变量cₜ'不再是固定的，而是通过对编码器所有时间步的隐藏状态进行加权平均得到：

$$ \boldsymbol{c}{t'} = \sum{t=1}^T \alpha_{t' t} \boldsymbol{h}_t $$

其中αₜ't是注意力权重，表示解码器在时间步t'对编码器时间步t的隐藏状态的关注程度。这些权重通过softmax函数归一化为概率分布：

$$ \alpha_{t' t} = \frac{\exp(e_{t' t})}{ \sum_{k=1}^T \exp(e_{t' k}) } $$

2. 注意力得分计算

eₜ't被称为注意力得分(attention score)，它衡量了查询(解码器状态)和键(编码器状态)之间的相关性。常见的计算方式包括：

点积注意力：最简单的形式，直接计算两个向量的点积 $$ e_{t' t} = \boldsymbol{s}_{t' - 1}^\top \boldsymbol{h}_t $$
加性注意力：通过神经网络计算 $$ e_{t' t} = \boldsymbol{v}^\top \tanh(\boldsymbol{W}s \boldsymbol{s}{t' - 1} + \boldsymbol{W}_h \boldsymbol{h}_t) $$

其中v、Wₛ、Wₕ都是可学习的参数。

3. 矢量化实现

为了提升计算效率，注意力机制通常采用矢量化实现。定义：

查询矩阵Q ∈ ℝⁿˣʰ
键矩阵K ∈ ℝᵐˣʰ
值矩阵V ∈ ℝᵐˣʰ

注意力计算可以表示为： $$ \text{Attention}(Q, K, V) = \text{softmax}(QK^\top)V $$

这种形式可以高效地计算多个查询的注意力结果。

注意力机制与循环神经网络的结合

在基于RNN的编码器-解码器模型中，注意力机制通过修改GRU或LSTM的结构来整合注意力信息。以GRU为例，其更新公式变为：

$$ \begin{aligned} \boldsymbol{s}{t'} &= \boldsymbol{z}{t'} \odot \boldsymbol{s}{t'-1} + (1 - \boldsymbol{z}{t'}) \odot \tilde{\boldsymbol{s}}{t'} \ \tilde{\boldsymbol{s}}{t'} &= \text{tanh}(\boldsymbol{W}{ys} \boldsymbol{y}{t'-1} + \boldsymbol{W}{ss} (\boldsymbol{s}{t' - 1} \odot \boldsymbol{r}{t'}) + \boldsymbol{W}{cs} \boldsymbol{c}_{t'} + \boldsymbol{b}_s) \end{aligned} $$

其中cₜ'就是当前时间步的注意力背景变量。