[NIPS2017]Attention is all you need

本文深入解析Transformer模型,特别是Attention机制。通过Q、K、V的解释,阐述self-attention的工作原理,以及如何理解decoder self-attention中的Masked Multi-Head Attention。同时探讨公式(1)中的softmax(dkQKT)的意义,以及缩放因子dk的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原理源码讲解:https://www.jiqizhixin.com/articles/2018-11-06-10
https://nlp.seas.harvard.edu/2018/04/03/attention.html

这篇文章是火遍全宇宙,关于网上的解读也非常多,将自己看完后的一点小想法也总结一下。
看完一遍之后,有很多疑问,我是针对每个疑问都了解清楚后才算明白了这篇文章,可能写的不到位,只是总结下,下次忘记了便于翻查。
一:Q,K, V 到底是什么?
在传统的seq2seq框架下:
query: seq2seq模型中decode时隐层向量St−1_{t-1}t1, 记作qt−1_{t-1}t1, Q就是多个query组成的矩阵Q
value: seq2seq模型中encode时的隐层向量hi_ii,记作vi_ii, V是输入序列中n个词的embedding矩阵
key: 对hi_ii做了一次先行映射得到的向量, 记作ki_ii,K同上
在本文的transformer下,结合文字和图:
(1) encoder self-attention
Q 就是input sequence(w1w_1w1, w2w_2w2, …, wiw_iwi, …, wnw_nw

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值