0 引言
自注意力机制(Self-Attention Mechanism)是一种深度学习中的重要技术,广泛应用于自然语言处理、计算机视觉等领域,尤其是在Transformer模型中发挥了核心作用。它的关键思想是通过计算输入序列中每个元素与其他元素的相关性,赋予每个元素不同的权重,从而捕捉全局信息和长距离依赖。
1 自注意力机制的基本流程
自注意力机制通常应用于序列数据。对于一个输入序列 ,自注意力机制通过以下步骤计算每个元素的权重和输出:
(1)生成 Query、Key 和 Value
对于输入序列中的每个元素,首先生成三个向量:查询(Query)、键(Key)和值(Value)。这些向量是通过与学习到的矩阵相乘生成的。