65 注意力分数_by《李沐：动手学深度学习v2》pytorch版

最新推荐文章于 2025-11-30 17:53:43 发布

原创

最新推荐文章于 2025-11-30 17:53:43 发布 · 1.3k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #pytorch #人工智能

系列文章目录

文章目录

系列文章目录
回顾
拓展到高维度
总结
掩蔽softmax操作
加性注意力
缩放点积注意力
- 小结
- 练习

回顾

上一节使用了高斯核来对查询和键之间的关系建模。上一节中的高斯核指数部分可以视为注意力评分函数（attention scoring function），简称评分函数（scoring function），然后把这个函数的输出结果输入到softmax函数中进行运算。通过上述步骤，将得到与键对应的值的概率分布（即注意力权重）。最后，注意力汇聚的输出就是基于这些注意力权重的值的加权和。
如果用核回归的话就是下面这个公式。
在这里插入图片描述
我们通过一个函数先计算得到注意力分数，然后经过softmax后得到注意力权重。
从宏观来看，上述算法可以用来实现之前博客中的注意力机制框架。下图说明了如何将注意力汇聚的输出计算成为值的加权和，其中 $a$ 表示注意力评分函数。由于注意力权重是概率分布，因此加权和其本质上是加权平均值。
在这里插入图片描述

拓展到高维度

用数学语言描述，假设有一个查询 $\mathbf{q} \in \mathbb{R}^q$ 和 $m$ 个“键－值”对 $(\mathbf{k}_1, \mathbf{v}_1), \ldots, (\mathbf{k}_m, \mathbf{v}_m)$ ，其中 $\mathbf{k}_i \in \mathbb{R}^k$ ， $\mathbf{v}_i \in \mathbb{R}^v$ 。这里的 $q ， k ， v$ 的长度都可不同。
注意力汇聚函数 $f$ 就被表示成值的加权和：

$f(\mathbf{q}, (\mathbf{k}_1, \mathbf{v}_1), \ldots, (\mathbf{k}_m, \mathbf{v}_m)) = \sum_{i=1}^m \alpha(\mathbf{q}, \mathbf{k}_i) \mathbf{v}_i \in \mathbb{R}^v,$