理论
1、原理:
注意力机制通过注意力汇聚通过对查询(query)和键(key)结合在一起,实现对值(value)的选择倾向;

2、Nadaraya-Watson核回归背景:
根据输入的位置(query和key的计算结果)对输出(value)进行加权:

K是核(kernel)。
3、注意力汇聚(attention pooling)公式:
根据核回归总结出一般的公式:

其中x是查询,(xi,yi)(x_i , y_i)(xi,yi)是键值对,注意力汇聚本质上就是yiy_iyi的加权平均。将查询x和键xix_ixi之间的 关系建模为 注意⼒权重(attention weight)α(x,xi)α(x, x_i)α(x,xi),这个权重将被分配给每⼀个对应值yiy_iyi。 对于任何查询,模型在所有键值对注意⼒权重都是⼀个有效的概率分布:它们是非负的,并且总和为1。
如果带入一个高斯核进入Nadaraya-Watson核回归转化为softmax:

文章介绍了注意力机制的核心原理,包括通过查询和键的结合选择值的倾向,以及在Nadaraya-Watson核回归的背景下如何进行加权。注意力汇聚公式和注意力评分函数是理解这一机制的关键,其中加性注意力和缩放点积注意力是两种常见的实现方式。自注意力机制中,查询、键和值来自同一输入,常用于Transformer等模型中。给出的代码示例展示了自注意力层的简单实现。
最低0.47元/天 解锁文章
8395

被折叠的 条评论
为什么被折叠?



