注意力机制的两种常用形式-----加性注意力(Additive Attention)和点积注意力(Dot-product Attention)

注意力机制的两种常用形式

注意力机制是现代自然语言处理模型(如Transformer)的核心组件。最常用的两种注意力机制是加性注意力(Additive Attention)和点积注意力(Dot-product Attention)。下面详细解释并举例说明这两种注意力机制的工作原理和区别。

1. 加性注意力(Additive Attention)

加性注意力通过一个前馈神经网络(feed-forward network)计算查询(query)和键(key)之间的相似度,具体步骤如下:

  1. 输入:查询 Q Q Q和键 K K K

  2. 计算相似度:通过一个前馈神经网络计算相似度:
    e i j = v ⊤ tanh ⁡ ( W q Q i + W k K j ) e_{ij} = \text{v}^\top \tanh(\text{W}_q Q_i + \text{W}_k K_j) eij=vtanh(WqQi+WkKj)
    其中, W q \text{W}_q Wq W k \text{W}_k Wk是可学习的权重矩阵, v \text{v} v是一个可学习的向量。

  3. 计算注意力权重:将相似度通过softmax函数进行归一化:
    α i j = exp ⁡ ( e i j ) ∑ k exp ⁡ ( e i k ) \alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k} \exp(e_{ik})} αij=kexp(eik)exp(eij)

  4. 加权求和:利用注意力权重对值(value) V V V进行加权求和,得到输出:
    Attention ( Q , K , V ) = ∑ j α i j V j \text{Attention}(Q, K, V) = \sum_{j} \alpha_{ij} V_j Attention(Q,K,V)=jαijVj

2. 点积注意力(Dot-product Attention)

点积注意力通过计算查询 Q Q Q和键 K K K的点积来衡量相似度,并加上一个缩放因子,具体步骤如下:

  1. 输入:查询 Q Q Q和键 K K K

  2. 计算相似度:通过计算点积并除以缩放因子 d k \sqrt{d_k} dk
    e i j = Q i ⋅ K j ⊤ d k e_{ij} = \frac{Q_i \cdot K_j^\top}{\sqrt{d_k}} eij=dk QiKj
    其中, d k d_k dk是键的维度。

  3. 计算注意力权重:将相似度通过softmax函数进行归一化:
    α i j = exp ⁡ ( e

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值