深入理解d2l-ai中的注意力评分函数

房耿园Hartley

于 2025-06-01 09:04:54 发布

阅读量313

点赞数 5

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_00081/article/details/148361152

深入理解d2l-ai中的注意力评分函数

d2l-en d2l-ai/d2l-en: 是一个基于 Python 的深度学习教程，它使用了 SQLite 数据库存储数据。适合用于学习深度学习，特别是对于需要使用 Python 和 SQLite 数据库的场景。特点是深度学习教程、Python、SQLite 数据库。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-en

注意力机制基础回顾

在深度学习中，注意力机制已成为处理序列数据的重要工具。它允许模型在处理输入时动态地聚焦于最相关的部分，而不是对所有部分一视同仁。这种选择性关注的能力极大地提升了模型在机器翻译、文本摘要等任务中的表现。

注意力评分函数的重要性

在注意力机制中，评分函数起着核心作用。它决定了查询(query)和键(key)之间的相关性程度。传统的注意力机制使用高斯核等距离函数来计算这种相关性，但这些方法计算成本较高。因此，研究者们转向了更高效的点积注意力机制。

点积注意力详解

点积注意力是当前最流行的注意力评分函数之一。它的核心思想是通过简单的向量点积来衡量查询和键之间的相似度：

$$a(\mathbf{q}, \mathbf{k}_i) = \mathbf{q}^\top \mathbf{k}_i / \sqrt{d}$$

其中，$d$是向量的维度。除以$\sqrt{d}$的目的是为了控制点积结果的方差，使其不随维度增加而增长过快。

为什么需要缩放因子？

假设查询和键的每个元素都是独立同分布的随机变量，均值为0，方差为1。那么点积结果的方差就是$d$。通过除以$\sqrt{d}$，我们确保方差保持为1，无论向量长度如何变化。

掩码softmax操作

在实际应用中，我们经常需要处理长度不一的序列。掩码softmax操作允许我们忽略填充部分的影响：

对于短于最大长度的序列，将多余位置的值替换为极小的负数
应用softmax后，这些位置的权重将接近于0
这样就能确保注意力只集中在有效部分

这种技术在处理批量序列数据时尤为重要，因为它允许我们高效地处理不同长度的序列。

批量矩阵乘法

注意力机制的计算通常涉及大量矩阵运算。批量矩阵乘法(BMM)允许我们高效地计算多个矩阵乘积：

$$\textrm{BMM}(\mathbf{Q}, \mathbf{K}) = [\mathbf{Q}_1 \mathbf{K}_1, \mathbf{Q}_2 \mathbf{K}_2, \ldots, \mathbf{Q}_n \mathbf{K}_n]$$

这种操作在现代深度学习框架中都有高度优化的实现，能够充分利用GPU的并行计算能力。

缩放点积注意力的实现

完整的缩放点积注意力包含以下步骤：

计算查询和键的点积
应用缩放因子$1/\sqrt{d}$
使用掩码softmax计算注意力权重
用注意力权重对值(value)进行加权求和

在实现时，通常会加入dropout层作为正则化手段，防止过拟合。

实际应用示例

考虑一个批量大小为2的例子：

查询：2×1×2的张量
键：2×10×2的张量
值：2×10×4的张量
有效长度：[2,6]

经过缩放点积注意力后，输出将是一个2×1×4的张量，即每个样本得到一个加权后的值向量。

总结

注意力评分函数是注意力机制的核心组件。点积注意力因其计算效率和良好的性能成为最常用的选择。通过结合掩码技术和批量矩阵乘法，我们能够高效地处理实际应用中的各种复杂情况。理解这些基础组件对于构建更复杂的注意力模型(如Transformer)至关重要。

d2l-en d2l-ai/d2l-en: 是一个基于 Python 的深度学习教程，它使用了 SQLite 数据库存储数据。适合用于学习深度学习，特别是对于需要使用 Python 和 SQLite 数据库的场景。特点是深度学习教程、Python、SQLite 数据库。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-en

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

房耿园Hartley 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。