对于Attention机制中Q，K，V的一些理解

Seq2Seq中QKV详解

最新推荐文章于 2025-10-08 08:39:29 发布

原创最新推荐文章于 2025-10-08 08:39:29 发布 · 1.5w 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

秋来落叶声专栏收录该内容

12 篇文章

订阅专栏

Q、K、V是什么

[PS：本文谈论的Q、K、V只限于seq2seq结构]

Q：指的是query，相当于decoder的内容
K：指的是key，相当于encoder的内容
V：指的是value，相当于encoder的内容

看到这里，是不是只想直呼卧槽，这什么鬼。不急，先看一个例子

例子

由于讨论的是seq2seq任务，于是来看看机器翻译。
假如我们要将我喜欢看电影翻译成I like watching movies，步骤则会如下

使用一种编码方式(如LSTM、CNN、Transformer等)编码中文
使用一种方式解码
- 机器翻译这个任务中会在解码端给一个开始的标记，如</s>，我们根据这个标记传给解码端，开始生成英文，比如生成了I这个单词，下一步当然是需要生成’like’这个单词，于是这个I将会作为query集去查找，形象话说就是我们需要使用已经有的东西去询问一些事情。
- 去哪里查找？当然是编码端，也就是那些可以被查找的信息，如果原文在编码中是字向量表示则是我、喜、欢、看、电、影。
- 找到了返回啥的信息？返回编码端的信息，具体的会将我、喜、欢、看、电、影做一个调整再回传。

到这里，对于使用Attention机制的seq2seq任务，这么理解我认为是没问题的

推荐资料

http://jalammar.github.io/illustrated-transformer/
另外，jalammar这位大神写了不少有意义的资料，推荐读一读
https://www.youtube.com/watch?v=gciHGREJdJ4
这个视频是对BERT的介绍，里面有提到对Attention机制的理解，本文的写作来自于这个人的视频。

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。