注意力机制

最新推荐文章于 2025-03-14 17:40:57 发布

十二分热爱

最新推荐文章于 2025-03-14 17:40:57 发布

阅读量1.4k

点赞数

分类专栏：多模态融合

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_41988545/article/details/113195844

版权

多模态融合专栏收录该内容

9 篇文章

订阅专栏

注意力机制的本质思想：

source:我是中国人

target: I am Chinese

如果翻译单词I时，则Query为I，source中的 “我” “是” “中国人”都是K，而V代表每个source中输出的context vector，如果为RNN模型的话就是对应的状态向量；即key与value相同

QKV是分别是embeding*Wq，Wk，Wv

将Source中的构成元素想象成是由一系列的<Key,Value>数据对构成，此时给定Target中的某个元素Query，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的Attention数值。所以本质上Attention机制是对Source中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数。即可以将其本质思想改写为如下公式：

Lx代表source长度

上文所举的机器翻译的例子里，因为在计算Attention的过程中，Source中的Key和Value合二为一，指向的是同一个东西，也即输入句子中每个单词对应的语义编码，所以可能不容易看出这种能够体现本质思想的结构。

Attention的计算过程：

如果对目前大多数方法进行抽象的话，可以将其归纳为两个过程：

第一个过程是根据Query和Key计算权重系数，第二个过程根据权重系数对Value进行加权求和。

而第一个过程又可以细分为两个阶段：第一个阶段根据Query和Key计算两者的相似性或者相关性；第二个阶段对第一阶段的原始分值进行归一化处理；这样，可以将Attention的计算过程抽象为下图展示的三个阶段。

第一个阶段，可以引入不同的函数和计算机制，根据Query和某个，计算两者的相似性或者相关性

最常见的方法包括：求两者的向量点积、求两者的向量Cosine相似性或者通过再引入额外的神经网络来求值，即如下方式：

这一步的计算方法通常有以下四种：

第一阶段产生的分值根据具体产生的方法不同其数值取值范围也不一样

第二阶段引入类似SoftMax的计算方式对第一阶段的得分进行数值转换，一方面可以进行归一化，将原始计算分值整理成所有元素权重之和为1的概率分布；另一方面也可以通过SoftMax的内在机制更加突出重要元素的权重。即一般采用如下公式计算：

第二阶段的计算结果即为对应的权重系数，然后进行加权求和即可得到Attention数值：

而V代表每个source中输出的context vector

论文：Attention is all you need

Multi-Head Attention

只对QKV进行一次权重操作是不够的，所以需要进行多次

十二分热爱

博客等级

码龄7年

336
原创

87
点赞

319
收藏

46
粉丝

关注

私信

分类专栏

展开全部收起

上一篇：: 三元组损失函数

下一篇：: 回归预测评估指标

最新评论

二叉树四种遍历
2301_80831028: DeV为什么运行不了
标题：全球变暖
开学bug: 思路错了，大家散了吧
[蓝桥杯][算法提高VIP]洗牌
qq_45757788: 我来告诉你为什么，num不应该小于等于52，而是应该小于等于56。如果用char作为输入变量的定义值，一次只能输入一个字符。当输入10，相当于执行了2次while循环，才能把10存放在容器里。扑克牌里有4张10，因此while循环要执行56次。因此，num<=52时，容器里只存了48个数。
Memory Fusion Network for Multi-view Sequential Learning注意力融合MFN
Shineboxs: 我理解是，经过这些操作，MFT的输出就含有时序上多个模态相互之间进行交互的交互信息
超级楼梯（递归）
英雄这里出来: 这个用递归会超时吗

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。