Attention机制、self-attention机制原理及计算

最新推荐文章于 2025-03-24 20:46:31 发布

左手指月

最新推荐文章于 2025-03-24 20:46:31 发布

阅读量1.5k

点赞数 1

分类专栏： attention 文章标签： NLP

本文链接：https://blog.youkuaiyun.com/qq_41961237/article/details/103433454

版权

attention 专栏收录该内容

3 篇文章

订阅专栏

Attention、self-attention机制理解

Attention原理理解

个人理解假定源文档source，其中的每一个词为value，并且给每一个词进行编号key。query暂时理解为需求，用来预测相关的query。
![图片来自网络，侵删](https://img-blog.csdnimg.cn/20191207105930782.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxOTYxMjM3,size_16,color_FFFFFF,t_70

在这里插入图片描述

对齐机制

Attention机制也就是对齐机制；提出该概念的理由如下：
假设输入的是"小明/喜欢/猫"，则翻译结果应该是"XiaoMing likes cat"。根据上述架构，在解码得到"XiaoMing",“likes”," cat"时，引入的语义编码向量是相同的，也就是"小明"，“喜欢”，“猫"在翻译时对得到"XiaoMing”,“likes”," cat"的作用是相同的。这显然不合理，在解码得到"XiaoMing"时，"小明"的作用应该最大才对。因此引入对齐机制：解码时，语义编码向量随输入动态变化！
对齐机制的理解以RNN为例：
编码时，记下来每一个时刻的RNN编码输出(h1,h2,h3,…hn)；解码时，根据前一时刻的解码状态，即yi-1，计算出来一组权重(a1,a2,…an)，这组权重决定了在当前的解码时刻，(h1,h2,h3,…hn)分别对解码的贡献。
在这里插入图片描述