论文阅读：Attention is all you need、Attention原理

最新推荐文章于 2025-04-08 18:30:56 发布

SpadeA_Iverxin

最新推荐文章于 2025-04-08 18:30:56 发布

阅读量1.1k

点赞数 6

分类专栏：机器学习文章标签：自然语言处理深度学习

本文链接：https://blog.youkuaiyun.com/KuXiaoQuShiHuai/article/details/116071910

版权

机器学习专栏收录该内容

14 篇文章

订阅专栏

本文深入解析Transformer模型，重点介绍了Self-Attention和Multi-HeadAttention机制，包括它们的工作原理、矩阵运算过程以及在Seq2Seq模型中的应用。Transformer模型仅使用Attention机制，摒弃了传统的RNN和CNN，为序列处理提供了新的思路。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

这篇文章可以说是把Attention机制发扬光大的文章。提出了一个交Transformer的模型，对，就是变形金刚的那个transformer。Transformer模型只使用注意力机制（Attention mechanisms）来实现Encoder和Decoder，没有使用其他的RNN或者CNN。

Transformer模型是一个Seq2Seq的模型，即输入是一个序列，输出也为一个序列。

模型架构：

从模型架构上来看，主要有以下几个部分：

左侧是Encoder，右侧是Decoder，他们主要由以下模块组成：

Input Embedding
Positional Encoding
Muti-Head Attention
Norm
Feed-Forward
Output Embedding

Encoder和Decoder的数据流如图（以3个encoder和3个decoder为例）：
在这里插入图片描述

接下来一一分解：

1. Attention

说到Attention，就得说两个东西：self-attention和multi-head attention:

1.1. Self-Attention

在这里插入图片描述

self-attention就是一个模型，这个模型只有三个训练参数：

$W_q \in \Bbb{R}^{k \times n}$ 矩阵。
$W_k \in \Bbb{R}^{k \times n }$ 矩阵。
$W_v\in \Bbb{R}^{v \times n }$ $矩阵。

对于每个输入的列向量 $a_i \in \Bbb{R}^n$ :

$q_i = W_q a_i$ ， $q_i$ 是k维列向量

$k_i, v_i$ 同理。

上图我们输入为a1,a2,a3，输入向量为b1,b2,b3，图中绘制出了b1的计算方法，b2,b3类似。

有以下几个步骤需要注意：

$\alpha_{ij}$ 的计算

在计算 $\alpha_{ij}$ 时，需要使用 $q_i$ 和 $k_j$ 来计算。有两种计算 $\alpha_{ij}$ 的方法：

（1）点积法（Dot-Product Attention)

（2）相加法(Additive attention)

图片来自李宏毅深度学习ppt

这篇论文提出的Transformer使用的是Scaled Dot-Product Attention。顾名思义，就是在点积的基础上，对于得到的 $\alpha$ 再进行一次缩放，除以 $\sqrt{d_k}$ 。

$d_k$ 是k值和q值的维度（他俩维度相同）

在实际应用中点积法速度更快，而且空间效率更高。

在 $d_k$ 很小时，这两种方法表现差不多，但是当 $d_k$ 较大的时候，相加法效果就比没有缩放的点积法表现的更好。论文作者认为这是因为 $d_k$ 大的时候，点积的结果会变大。把softmax结果推入梯度更小的区域。

We suspect that for large values of dk, the dot products grow large in magnitude, pushing the softmax function into regions where it has extremely small gradients .

为了解决这个问题，才进行了一个除以 $\sqrt{d_k}$ 的缩放。