compressai里的注意力机制

文章介绍了注意力机制的核心原理,包括通过查询和键的结合选择值的倾向,以及在Nadaraya-Watson核回归的背景下如何进行加权。注意力汇聚公式和注意力评分函数是理解这一机制的关键,其中加性注意力和缩放点积注意力是两种常见的实现方式。自注意力机制中,查询、键和值来自同一输入,常用于Transformer等模型中。给出的代码示例展示了自注意力层的简单实现。

理论

1、原理:

注意力机制通过注意力汇聚通过对查询(query)和键(key)结合在一起,实现对值(value)的选择倾向;
在这里插入图片描述

2、Nadaraya-Watson核回归背景:

根据输入的位置(query和key的计算结果)对输出(value)进行加权:


K是核(kernel)。

3、注意力汇聚(attention pooling)公式:

根据核回归总结出一般的公式:
在这里插入图片描述
其中x是查询,(xi,yi)(x_i , y_i)(xi,yi)是键值对,注意力汇聚本质上就是yiy_iyi的加权平均。将查询x和键xix_ixi之间的 关系建模为 注意⼒权重(attention weight)α(x,xi)α(x, x_i)α(x,xi),这个权重将被分配给每⼀个对应值yiy_iyi。 对于任何查询,模型在所有键值对注意⼒权重都是⼀个有效的概率分布:它们是非负的,并且总和为1。

如果带入一个高斯核进入Nadaraya-Watson核回归转化为softmax:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值