一、注意力机制
1、核心架构
注意力机制的核心架构由 Query、Key 和 Value 三个主要组成部分构成。
- Query:代表了当前正在处理的元素或需要关注的目标。在推荐系统中,可以是候选集中的item。
-
Key:代表了输入序列中每个元素的标识或特征。在注意力计算中,Key用于确定每个元素与Query的匹配程度。在推荐系统中可以是用户历史消费物料序列。
-
Value:包含了输入序列中每个元素的具体内容或信息。一旦确定了哪些元素与Query相关,Value就提供了这些元素的实际信息,以供模型使用。在推荐系统中可以是用户历史消费物料的评分、消费时长等相关信息。
2、流程
①计算注意力得分
使用Query和Key来计算注意力得分,通常通过点积或缩放点积来实现。
②标准化
将注意力得分通过softmax函数进行标准化,使得所有得分的和为1,这样就可以被视为概率分布。
③加权和
使用标准化后的注意力得分作为权重,对Value进行加权和,得到最终的注意力输出。
3、Nadaraya-Watson核回归
K是衡量x与x_i距离的函数。
4、参数化的注意力机制
引入了一个可学习的参数w调整x_i重要性。
二、注意力分数
1、结构
2、扩展到高维度
q和k都是向量。