注意力机制（Q,K,V）基本概念

原创已于 2023-11-27 14:53:06 修改 · 7.3k 阅读

40 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #计算机视觉

于 2023-11-27 14:10:44 首次发布

打基础专栏收录该内容

23 篇文章

订阅专栏

本文详细介绍了注意力机制的概念，包括注意力提示的自主性和非自主性、注意力汇聚的非参和带参数形式，以及评分函数如高斯核和加性/缩放点积的应用。还讨论了遮蔽softmax如何控制注意力范围。

文章目录

一、注意力提示
二、注意力汇聚
三、注意力评分函数
- 3.1概念
- 3.2例子
四、遮蔽softmax
- 三+四小结

一、注意力提示

我们使用偏日常的注意力提示引入注意力机制

1.1概念

查询 query
=自主性的提示
=随意的
键 key
= 非自主性的提示
=不随意的
值 value
= 感觉输入
值和键是成对的

注意：此处的随意/不随意中的意是意志的意

1.2生活中的注意力提示

非自主性提示
自主性提示

人的意志就是自主性的提示，引导注意力指向了书。当无意识时，由于突出的非自主性提示(杯子)，引导注意力指向了杯子。
此时，人的意志为query，杯子、书等物品为key，最终注意力的去向为value

1.3注意力机制基本框架

在这里插入图片描述
注意力机制通过注意力汇聚将查询（自主性提示）和键（非自主性提示）结合在一起，实现对值（感官输入）的选择倾向

小结

受试者使用非自主性和自主性提示有选择性地引导注意力。前者基于突出性，后者则依赖于意识。
注意力机制与全连接的层或汇聚层的区别：增加了自主性提示

二、注意力汇聚

2.1概念

查询（自主提示）和键（非自主提示）之间的交互形成了注意力汇聚；注意力汇聚有选择地聚合了值（感官输入）以生成最终的输出

2.2非参注意力汇聚

2.2.1平均汇聚

公式
$f(x)={1\over n}\sum_{i=1}^n y_i \tag{1}$
结果

观察可知"查询-键"对越接近，注意力汇聚的注意力权值越高
缺点
忽略了输入 $x$

2.2.2Nadaraya-Waston核回归

改进
Nadaraya-Waston核回归比平均汇聚更优越的地方在于，其考虑了输入 $x$ 的位置。根据输入位置x对数据y进行加权
公式
$\sum_{i=1}^n \frac{K(x - x_i)}{\sum_{j=1}^n K(x - x_j)} y_i, \tag{2}$
Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。
优点
回归具有一致性：如果有足够的数据，模型将收敛到最优解(非参方法的特点)
注意： 其中K为高斯核函数，可自定义

2.3通用注意力汇聚公式

受K核的启发，可以将注意力汇聚公式重写为更通用的形式（适用于非参、带参）
$\sum_{i=1}^n \alpha(x, x_i) y_i,\tag{3}$
其中x是查询， $x_i,y_i)$ 是键值对。比较平均汇聚(1)和通用公式(3) ，注意力汇聚是 $y_i$ 的加权平均。将查询x和键 $x_i$ 之间的关系建模为注意力权重 $\alpha(x,x_i)$ ，这个权重将被分配给每一个对应值 $y_i$ 。

对于任何查询，模型在所有键值对注意力权重 $\alpha(x,x_i)$ 都是一个有效的概率分布：它们是非负的，并且总和为1。

例子

可以自定义一个高斯核为
$\frac{1}{\sqrt{2\pi}} \exp(-\frac{u^2}{2})$
将其带入(3)中，可以得到注意力汇聚公式如(4)
$\begin{split}\begin{aligned} f(x) &=\sum_{i=1}^n \alpha(x, x_i) y_i\\ &= \sum_{i=1}^n \frac{\exp\left(-\frac{1}{2}(x - x_i)^2\right)}{\sum_{j=1}^n \exp\left(-\frac{1}{2}(x - x_j)^2\right)} y_i \\&= \sum_{i=1}^n \mathrm{softmax}\left(-\frac{1}{2}(x - x_i)^2\right) y_i. \end{aligned}\end{split} \tag{4}$
在(4)中，给出的查询x越接近某个键 $x_i$ ，则分配给这个键对应值 $y_i$ 的注意力权重就会越大，也就获得了更多的注意力。

特别的，Nadaraya-Watson核回归是一个非参数模型。因此将K带入后的通用注意力汇聚模型也为非参的模型。如果带入一个带参模型，则为带参的注意力汇聚模型。

2.4带参数注意力汇聚

将(3)带入一个带参模型，则为带参的注意力汇聚模型。如公式(5)
$\begin{split}\begin{aligned}f(x) &= \sum_{i=1}^n \alpha(x, x_i) y_i \\&= \sum_{i=1}^n \frac{\exp\left(-\frac{1}{2}((x - x_i)w)^2\right)}{\sum_{j=1}^n \exp\left(-\frac{1}{2}((x - x_j)w)^2\right)} y_i \\&= \sum_{i=1}^n \mathrm{softmax}\left(-\frac{1}{2}((x - x_i)w)^2\right) y_i.\end{aligned}\end{split}$

小结

注意力汇聚可以分为非参数型和带参数型
Nadaraya-Watson核回归中的高斯核函数为注意力汇聚函数
Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。从注意力的角度来看，分配给每个值的注意力权重取决于将值所对应的键和查询作为输入的函数

至此注意力机制的基本概念介绍完毕，接下来介绍注意力机制的进阶概念

三、注意力评分函数

3.1概念

在通用注意力汇聚公式介绍时，我们自定义了一个高斯核，并将其带入通用注意力汇聚公式中
$\frac{1}{\sqrt{2\pi}} \exp(-\frac{u^2}{2})$
将其带入(3)中，可以得到注意力汇聚公式如(4)
$\begin{split}\begin{aligned} f(x) &=\sum_{i=1}^n \alpha(x, x_i) y_i\\ &= \sum_{i=1}^n \frac{\exp\left(-\frac{1}{2}(x - x_i)^2\right)}{\sum_{j=1}^n \exp\left(-\frac{1}{2}(x - x_j)^2\right)} y_i \\&= \sum_{i=1}^n \mathrm{softmax}\left(-\frac{1}{2}(x - x_i)^2\right) y_i. \end{aligned}\end{split} \tag{4}$
其中x为查询， $x_i$ 为键， $y_i$ 为值

通过观察可得，可以将K的指数部分 $-\frac{u^2}{2}$ 视为注意力评分函数。
即注意力汇聚的输出可以分为以下三个步骤：

通过注意力评分函数计算键 $x_i$ 和x的得分
将得分作为softmax函数的输入
softmax计算后将得到与键对应的值的概率分布（即注意力权重）
计算注意力权重与值的加权和

引入注意力评分函数的注意力机制框架如图所示

3.2例子

除了高斯核函数K的指数部分外，还有加性注意力、缩放点积注意力可作为评分函数

加性注意力

当查询和键是不同长度的矢量使适用

缩放点积注意力

计算效率更高
查询和键有相同长度

四、遮蔽softmax

并非所有值都应该被纳入到注意力汇聚中。可以指定一个有效序列长度，使masked_softmax滤去超出范围的部分

三+四小结

注意力汇聚从参数角度上可分为非参和带参。从结构上，注意力汇聚函数可以拆分为评分函数+softmax函数。注意力汇聚函数可以表示为
$h=\sum_i softmax(score(q,k_i))*v_i$
将注意力汇聚的输出计算可以作为值的加权平均，选择不同的注意力评分函数会带来不同的注意力汇聚操作。
当查询和键是不同长度的矢量时，可以使用可加性注意力评分函数。当它们的长度相同时，使用缩放的“点－积”注意力评分函数的计算效率更高