Self-attention计算方法

最新推荐文章于 2025-04-27 21:43:40 发布

Madname

最新推荐文章于 2025-04-27 21:43:40 发布

阅读量4.3k

点赞数 7

分类专栏： BERT

本文链接：https://blog.youkuaiyun.com/weixin_43282288/article/details/103513107

版权

在这里插入图片描述

三个矩阵

首先，Inputs为x₁~x₄，是一个sequence，每一个Input先通过一个Embedding，乘上一个Matrix得到(a₁,a₄)，然后放入self-attention
在self-attention当中，每一个Input都分别乘上3个不同的Matrix产生3个不同的Vector，分别命名为q，k，v
在这里插入图片描述
q代表query，to match others，每一个Input都乘上一个Matrix W_q，就得到q₁~q₄，叫做query
k代表key，to be matched计算同上
v就是要被抽取出来的information，计算同上

现在，每一个a都有qkv3个不同的Vector，接下来，拿每一个query q，去对每一个key k去做attention
attention简单来说就是输入2个向量，out一个分数先看q₁，对k₁做attention，得到α_1,1
在这里插入图片描述
同理得到α_1,2，α_1,3，α_1,4，至此得到了q₁对k_1,2,3,4的attention，d为q与k的Dimension(维度)，因为q与k做点乘，所以维度越大，算出来的值越大。
前面说过attention是输入2个Vector，输出1个out分值，不能让分值随向量维度的增大而增大，softmax之后会导致梯度消失，所以要先进行一个缩放。
也可以尝试用其他的attention，不一定要用Dot-Product Attention
在这里插入图片描述
接下来将得到的α_1,1~α_1,4通过一个softmax层得到 $\hat α$

然后拿 $\hat α$ 去和每一个v相乘，得到的Vector加起来，就得到了一个Vector，这个Vector就是b₁
self-attention输入是一个sequence，输出也是一个sequence，现在得到了输出的seq的第一个Vector b₁，此时可以知道，产生b₁的时候，已经看到了a₁~a₄的词序
如果产生b₁的时候不想考虑整个句子的词序，只想考虑local的information，只需要让 $\hat α$ ₂₃₄产生出来的值变为0，就可以只考虑local的information
而如果要考虑最远的x₄产生的影响，只需要让 $\hat α$ ₄有值就可以了
在这里插入图片描述
刚刚算出来了b₁，在同时也可以算b₂，

最低0.47元/天解锁文章