图像中的attention及QKV机制解释

简单记录/推荐两篇博客,后续细化写一下:

写在前面

引用博客:https://blog.youkuaiyun.com/admin_maxin/article/details/138181690 里面的观点,写的很好:

Transformer,它最开始提出是针对nlp领域的,在此之前除了seq2seq这种encoder-decoder架构,大家主要还是用的rnn、lstm这种时序网络,像rnn系列网络它是有问题的,首先就是它记忆的长度是有限的,其次是无法并行化计算,也就是必须要先计算xt时刻的数据才能计算时刻xt+1,这就导致效率低下。针对这些问题,Google就提出了
Transformer,在 Transformer 中有两个非常重要的模块:Self Attention 和 Multi-Head
Attention,本文会先介绍 Attention 的基本思想,然后再对 Self Attention 和 Multi-Head
Attention 进行概述,最后再讲本文的主题 Cross Attention,其实 Cross Attention
非常简单,不要被它的名字吓到,一定要理解透彻前面的 Multi-Head Attention。

相当精辟的表达,以下就是注意力机制的核心:

注意力机制的核心目标是从众多信息中选择出对当前任务目标更关键的信息,将注意力放在上面。其本质思想就是【从大量信息中】【有选择的筛选出】【少量重要信息】并将注意力【聚焦到这些重要信息上】,【忽略大多不重要的信息】。聚焦的过程体现在【权重系数】的计算上,权重越大越聚焦于其对应的value值上。即权重代表了信息的重要性,而value是其对应的信息。

图像中的各类 attention

https://blog.youkuaiyun.com/weixin_44505185/article/details/127013204

Cross-attention的直观理解

首先理解,cross-attention 是两个不同向量间的相关计算,一般Q叫做查询向量,K=V,V是被查询向量;

一句话讲,对图像而言,cross-attention可以看做:

将重要特征的强弱程度权重系数矩阵施加到图像特征V上,得到最终的带有注意力权重分布的图像特征,在特征图V上属于Q的特征会被加强,不属于Q的特征会被减弱。
https://blog.youkuaiyun.com/kdongyi/article/details/137084791

相关博客推荐:

https://blog.youkuaiyun.com/admin_maxin/article/details/138181690
https://blog.youkuaiyun.com/philosophyatmath/article/details/128013258

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值