前言
❝在计算能力有限的情况下,「注意力机制(AttentionMechanism)」 作为一种资源分配方案,将有限的计算资源用来处理更重要的信心,是解决信息超载问题的主要手段。 ----《神经网络与深度学习》[1]
❞
注意力机制在很多推荐模型中得到了广泛的应用,例如AFM、DIN、DIEN等。另外结合自注意力机制,NLP中也出现了Transformer、Bert模型,对应的推荐模型也有SASRec、BST、BERT4Rec等模型。本文结合部分论文,对其中的注意力机制部分进行了总结。
本文约4.5k字,预计阅读15分钟。
注意力机制概述
用 表示 组输入信息,其中 维向量 表示一组输入的信息(向量)。注意力机制的计算可以分为两步:
在所有输入信息上计算「注意力分布」;
根据注意力分布来计算输入信息的加权平均;
「注意力分布:」
为了从 个输入向量 中选择出和某个特定任务相关的信息,需要引入一个和任务相关的表示,即「查询向量 」,通过一个打分函数来计算「每个输入向量和查询向量之间的相关性」。
给定一个和任务相关的查询量量 ,用注意力变量 来表示被选择信息的索引位置,即 表示选择了第 个输入向量。首先计算在给定 和 下,选择第 个输入向量的概率 ,
称为「注意力分布」,也可以说是在给定任务相关的查询 时,第 个输入向量受关注的程度。 为注意力打分函数,主要包括:
加性模型: