注意力机制的两种常用形式-----加性注意力（Additive Attention）和点积注意力（Dot-product Attention）

six.学长

于 2024-06-28 10:04:52 发布

阅读量2.4k

点赞数 29

分类专栏：深度学习 Transformer 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_51200050/article/details/140034769

版权

注意力机制的两种常用形式

注意力机制是现代自然语言处理模型（如Transformer）的核心组件。最常用的两种注意力机制是加性注意力（Additive Attention）和点积注意力（Dot-product Attention）。下面详细解释并举例说明这两种注意力机制的工作原理和区别。

1. 加性注意力（Additive Attention）

加性注意力通过一个前馈神经网络（feed-forward network）计算查询（query）和键（key）之间的相似度，具体步骤如下：

输入：查询 $Q$ 和键 $K$ 。
计算相似度：通过一个前馈神经网络计算相似度：
$e_{ij} = \text{v}^\top \tanh(\text{W}_q Q_i + \text{W}_k K_j)$
其中， $\text{W}_q$ 和 $\text{W}_k$ 是可学习的权重矩阵， $\text{v}$ 是一个可学习的向量。
计算注意力权重：将相似度通过softmax函数进行归一化：
$\alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k} \exp(e_{ik})}$
加权求和：利用注意力权重对值（value） $V$ 进行加权求和，得到输出：
$\text{Attention}(Q, K, V) = \sum_{j} \alpha_{ij} V_j$

2. 点积注意力（Dot-product Attention）

点积注意力通过计算查询 $Q$ 和键 $K$ 的点积来衡量相似度，并加上一个缩放因子，具体步骤如下：

输入：查询 $Q$ 和键 $K$ 。
计算相似度：通过计算点积并除以缩放因子 $\sqrt{d_k}$ ：
$e_{ij} = \frac{Q_i \cdot K_j^\top}{\sqrt{d_k}}$
其中， $d_k$ 是键的维度。
计算注意力权重：将相似度通过softmax函数进行归一化：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。