Transformer中的attention的来龙去脉

这篇博客深入探讨了Transformer模型中的Attention机制,包括经典Attention、不同类型的Attention(如additive和dot-product),self-attention以及key-value pairs attention。文章还提到了Scaled Dot-Product Attention的重要性,解释了为何在高维空间中需要缩放的原因。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文原文Attention is all you need:
https://arxiv.org/pdf/1706.03762.pdf

参考的链接:
https://zhuanlan.zhihu.com/p/46990010
https://www.tensorflow.org/tutorials/text/transformer
https://segmentfault.com/a/1190000020021078
https://blog.youkuaiyun.com/mpk_no1/article/details/72862348

0 经典attention机制 generalized

以下均已翻译模型为例子:
attention涉及的变量主要分为三部分,编码层的输入变量 h i h_i hi,解码器隐层状态相当于系统当前时间 t t t状态 s t s_t st,以及对于 ( h 1 , h 2 , ⋯   , h T x ) (h_1,h_2, \cdots, h_{T_x}) (h1,h2,,hTx)这一输入的隐状态 z z z用来预测 t + 1 t+1 t+1时刻的 s s s

attention的计算总的来说分为三步

  1. 计算 s i s_i si h j h_j hj的适配程度(compatibility function),相似度
    f i j = F ( s i , h j ) f_{ij} = F(s_i,h_j) fij=F(si,hj)

  2. 归一化求出权重,通常使用softmax
    w i j = e f i j ∑ k = 1 T x e f i k w_{ij} = \frac { {\rm e}^{f_{ij}}} {\sum_{k=1}^{T_x} {\rm e}^{f_{ik}}} wij=k=1Txefik

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值