Attention机制

最新推荐文章于 2025-06-13 15:42:17 发布

"灼灼其华"

最新推荐文章于 2025-06-13 15:42:17 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏： NLP

本文链接：https://blog.youkuaiyun.com/weixin_44285715/article/details/103299843

NLP 专栏收录该内容

13 篇文章

订阅专栏

Attention注意力模型的强大应用

起初，我们用encoder，decoder来encode语句到语义上，再decode语义到下游任务中。

比如：

输入是中文，输出是英文，这就是翻译系统。
输入是文章，输出时摘要，这就是摘要系统。
输入是问题，输出是答案，这就是QA问答系统，对话机器人。
输入是图片，输出是文字，这就是图片自动描述系统。
输入是语音，输出是文字，这就是ASR系统。

Encoder-decoder的缺陷：所有的输入词的权重都是一样的，没有区别。

无attention：

encoder-decoder在无attention机制时，由encoder将输入序列转化为最后一层输出state向量，再由state向量来循环输出序列每个字符。

Soft Attention机制：

将整个序列的信息压缩在一维向量里造成信息丢失，并且考虑到输出的某个字符只与输入序列的某个或某几个相关，与其他输入字符不相关或相关性较弱，由此提出了attention机制。在encoder层将输入序列的每个字符output向量以不同权重进行组合再decode输出字符，每需要输出一个字符，encoder层权重序列都会变，这就可以理解为需要输出的字符是由哪些或那个字符影响最大，这就是注意力机制。

以自动翻译为例，在翻译到目标文本的每个词时，encoder出来的语义Ci都会跟着变化，因为source里的每个单词对当前要翻译的词的贡献度不同

Attention机制主要涉及到三个概念：Query、Key和Value。

在上面增强字的语义表示这个应用场景中，目标字及其上下文的字都有各自的原始Value，Attention机制将目标字作为Query、其上下文的各个字作为Key，并将Query与各个Key的相似性作为权重，把上下文各个字的Value融入目标字的原始Value中。如下图所示，Attention机制将目标字和上下文各个字的语义向量表示作为输入，首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示，然后计算Query向量与各个Key向量的相似度作为权重，加权融合目标字的Value向量和各个上下文字的Value向量，作为Attention的输出，即：目标字的增强语义向量表示。

self-attention

self-attention来自于google文章《attention is all you need》。一个序列每个字符对其上下文字符的影响作用都不同，每个字对序列的语义信息贡献也不同，可以通过一种机制将原输入序列中字符向量通过加权融合序列中所有字符的语义向量信息来产生新的向量，即增强了原语义信息。

Self-Attention:对于输入文本，我们需要对其中的每个字分别增强语义向量表示，因此，我们分别将每个字作为Query，加权融合文本中所有字的语义信息，得到各个字的增强语义向量，如下图所示。在这种情况下，Query、Key和Value的向量表示均来自于同一输入文本，因此，该Attention机制也叫Self-Attention。