第三步:算出各个词汇之间的关联度——self attention
为什么要算关联度?
这是 Transformer 的关键步骤之一。它允许模型在一个序列中的不同位置关注其他位置的信息,从而捕捉长距离的依赖关系。
怎么算关联度?
要是人的话,要理解关联度,可能就是靠先验经验。比如根据先验经验,我们知道苹果和香蕉是比较关联的两个东西。但是机器怎么算出关联度呢?答案是:用向量点积运算的大小。
这边我觉得知乎大佬的一篇文章讲的比我好:超详细图解Self-Attention - 知乎 (zhihu.com)
看完后就差不多理解了self attention的流程了。
但是里面对于Q,K,V的意义还解释的不太清楚。这里补充一下:

文章介绍了Transformer中关键的self-attention计算关联度方法,涉及向量点积和如何在深度学习的attention机制中理解Q、K、V的作用。通过类比人类先验经验和详细图解帮助读者掌握这一过程。
8116

被折叠的 条评论
为什么被折叠?



