[NIPS2017]Attention is all you need

最新推荐文章于 2025-06-15 20:19:05 发布

小妖精Fsky

最新推荐文章于 2025-06-15 20:19:05 发布

阅读量1.8k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： PaperNotes 文章标签： attention

本文链接：https://blog.youkuaiyun.com/appleml/article/details/83415489

本文深入解析Transformer模型，特别是Attention机制。通过Q、K、V的解释，阐述self-attention的工作原理，以及如何理解decoder self-attention中的Masked Multi-Head Attention。同时探讨公式(1)中的softmax(dkQKT)的意义，以及缩放因子dk的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原理源码讲解：https://www.jiqizhixin.com/articles/2018-11-06-10
https://nlp.seas.harvard.edu/2018/04/03/attention.html

这篇文章是火遍全宇宙，关于网上的解读也非常多，将自己看完后的一点小想法也总结一下。
看完一遍之后，有很多疑问，我是针对每个疑问都了解清楚后才算明白了这篇文章，可能写的不到位，只是总结下，下次忘记了便于翻查。
一：Q，K， V 到底是什么？
在传统的seq2seq框架下：
query: seq2seq模型中decode时隐层向量S $_{t-1}$ ，记作q $_{t-1}$ , Q就是多个query组成的矩阵Q
value: seq2seq模型中encode时的隐层向量h $_i$ ，记作v $_i$ ， V是输入序列中n个词的embedding矩阵
key: 对h $_i$ 做了一次先行映射得到的向量，记作k $_i$ ，K同上
在本文的transformer下，结合文字和图：
(1) encoder self-attention
Q 就是input sequence( $w_1$ , $w_2$ , …, $w_i$ , …, $w_n$