自注意力机制(self-attention)
首先,其核心思想为:
其中,Q为query, ,即查询、要查询的信息
K为key, ,即索引、被查询的向量
V为value, ,即值、查询到的内容
dk代表k的维度,除以k的维度的平方根,使训练时的梯度保持稳定
Q,K,V都是输入x经过经过线性变换得到的,和它们分别相乘的三个矩阵W是通过学习得到的矩阵,使用这样的线性变换可以提高的模型的拟合能力
自注意力机制(self-attention)
首先,其核心思想为:
其中,Q为query, ,即查询、要查询的信息
K为key, ,即索引、被查询的向量
V为value, ,即值、查询到的内容
dk代表k的维度,除以k的维度的平方根,使训练时的梯度保持稳定
Q,K,V都是输入x经过经过线性变换得到的,和它们分别相乘的三个矩阵W是通过学习得到的矩阵,使用这样的线性变换可以提高的模型的拟合能力