Attention的矩阵表示及理解

最新推荐文章于 2025-02-03 10:16:45 发布

FrenchOldDriver

最新推荐文章于 2025-02-03 10:16:45 发布

阅读量4.5k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：自然语言处理文章标签： pytorch 机器学习深度学习神经网络自然语言处理

本文链接：https://blog.youkuaiyun.com/OldDriver1995/article/details/117562272

自然语言处理专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍了注意力机制在深度学习，特别是Seq2Seq模型中的应用。通过对比Luong和Vaswani的注意力机制，重点解释了Scaled Dot-Product Attention的工作原理，包括Attention Score的计算、Attention Distribution的softmax转换以及Attention Output的生成过程。文中还提供了矩阵运算的表示，帮助读者理解各个步骤，并给出了PyTorch实现的关键代码片段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Attention两篇文章链接：其中一个是Luong,提的dot product attention，另一个是Vaswali的scaled dot product attention ，也就是大名鼎鼎的attention is all you need。

说到attention不再过多赘述，论文中的公式推导感觉比较简单，结合自己的理解写一下矩阵层面的表示。数学好的可以跳过。

在attention is all you need这篇文章中，他是这么写的：
$softmax(\frac{QK^T}{\sqrt{d_k}})V$ ，而Luong那篇文章中，公式比较多且分散。
但无论如何，大致总结是（看下图），先算attention score（Q，K相乘），再用softmax算distribution，再把distribution和hidden state相乘获得attention output（最上面那个MatMul），再把output和另一个hidden相加（concat）。在这里插入图片描述

这里以seq2seq模型中的attention为例。

首先我们有encoder hidden state的一个序列: $H =[h_1, h_2, ...h_N]$
然后有 $t$ 时刻的decoder state $s^t$ , 所有时刻的decoder state就是 $S=[s^1, s^2, ..., s^t]$ 。
每次用所有的encoder hidden state去和当前时刻的decoder state相乘（dot product）

对于 $t$ 时刻而言的attention score就是用 $e^t = [h_1^Ts^t, h_2^Ts^t, ..., h_N^Ts^t]$ ，
但实际在计算中，我们是把整个decoder hidden state和encoder hidden state乘起来，而不是像循环一样对每个时刻都依次计算
$\left[ \begin{matrix} h_1^Ts^1 & h_2^Ts^1, &..., &h_N^Ts^1 \\ \vdots & \vdots &\ddots &\vdots\\ h_1^Ts^{t-1} & h_2^Ts^{t-1}, &..., &h_N^Ts^{t-1}\\ h_1^Ts^t & h_2^Ts^t, &..., &h_N^Ts^t \end{matrix} \right] = \left[ \begin{matrix}s^1\\ s^2\\ \vdots\\ s^t \end{matrix} \right] \cdot \left[ \begin{matrix} h_1^T & h_2^T & \cdots & & h_N^T \end{matrix} \right] \ (1)$

这里看不懂没关系，先看下一步如何计算attention distribution的计算，这里其实就是用softmax把 $e^t$ 中的每个元素映射到[0,1]之间并且总和为1:
$\alpha^t = softmax(e^t)$

如果用矩阵的方式表示其实就是
$[\alpha^1, \alpha^2, ..., \alpha^t]^T$ 其中e的右上标是时刻 $t$ 的意思, 而不是指数。其中每一个 $\alpha$ 都是一个1堆概率，长度为N，，也就是encoder hidden state的长度，并且每一个 $\alpha$ 总和为1。

下一步是将attention distribution和encoder hidden state相乘获得attention output, 即把每一个 $\alpha$ 中的每一个概率和对应位置的encoder hidden state相乘，再求和：
$a_t = \Sigma_{i=1}^N\alpha_i^th_i = [\alpha_1^t, \alpha_2^t, \alpha_3^t, ... \alpha_i^t] \cdot \left[ \begin{matrix}h_1 \\ h_2\\ h_3\\ \vdots\\ h_i\end{matrix} \right]$
这个操作对应于下图的encoder recurrent layer指向attention distribution的那条红线，以及Attention distribution指向Attention output的黑线以及最上面的三角形。
在这里插入图片描述
把每个时刻的 $a_t$ 都放到一起的话：
$[a_1, a_2, a_3, ..., a_t]^T = \left[ \begin{matrix} a_1\\ a_2\\ \vdots\\ a_t \end{matrix} \right] = \left[ \begin{matrix} \alpha_1^1 & \alpha_2^1 & \cdots & \alpha_i^1\\ \alpha_1^2 & \alpha_2^2 & \cdots & \alpha_i^2\\ \vdots & \vdots & \ddots& \vdots\\ \alpha_1^t & \alpha_2^t & \cdots & \alpha_i^t\end{matrix} \right] \cdot \left[ \begin{matrix} h_1 \\h_2 \\ \vdots\\ h_i \end{matrix} \right] \\=Softmax(E) \cdot H^T \\=Softmax(S \cdot H^T) \cdot H^T$

A中的每一个 $a_t$ 是当前 $t$ 时刻的attention output，需要和对应时刻的decoder state的s^t执行concat操作。如下图
在这里插入图片描述
写成公式就是 $concat[a_t, s_t]$ ，然后对每一个时刻的decoder state都执行这样的操作，其实就是concat(A, S)，其中A就是 $[a_1, a_2, ..., a_t] = \left[ \begin{matrix}\Sigma_{i=1}^N\alpha_i^1h_i & \Sigma_{i=1}^N\alpha_i^2h_i & ... &\Sigma_{i=1}^N\alpha_i^th_i\end{matrix} \right]$ , 而S就是 $s_1, s_2, ..., s_t]$