NLP-图解self-Attention

大虾飞哥哥

已于 2022-06-15 23:15:27 修改

阅读量519

点赞数

分类专栏： NLP 文章标签：自然语言处理人工智能机器学习

于 2022-05-11 11:27:33 首次发布

本文链接：https://blog.youkuaiyun.com/xu624735206/article/details/124698935

版权

NLP 专栏收录该内容

24 篇文章

订阅专栏

NLP-图解self-Attention

一、self-Attention是什么？
二、 self-Attention实现
三、 Multi-Head Attention实现

一、self-Attention是什么？

假设以下句子是我们要翻译的输入句子：

” The animal didn’t cross the street because it was too tired”

这句话中的“它”指的是什么？它指的是街道还是动物？这对人类来说是一个简单的问题，但对算法来说却不是那么简单。当模型处理 “it” 这个词时，self-attention 允许它把 “it” 和 “animal” 联系起来。

二、 self-Attention实现

第一步： 把输出进行编码得到词向量，构建三个矩阵分别来查询当前词跟其他词的关系，以及特征向量的表达。
在这里插入图片描述

通过将所有输入的词向量拼接到矩阵 $X$ 中，并将其乘以我们训练的权重矩阵（ $W^Q$ 、 $W^K$ 、 $W^V$ ）来做实现。
在这里插入图片描述
其中:
$Q : q u e r y$ ，要去查询的
$K : k e y$ ，等待被查的
$V : v a l u e$ ，实际的特征信息

第二步： 计算每一个 token 和句子中的每一个 token的相关性。假设我们正在计算第一个单词“Thinking” 的相关性，需要用 “Thinking” 的查询向量 $q_1$ 分别和 “Thinking”与"Machines" 的 key 值做内积，内积越大，相关性越高。
在这里插入图片描述