- 计算Query、Key和Value输入
通过线性变换分别得到Query(Q)、Key(K)和Value(V):
其中分别是训练的权重矩阵,dmodel=Embedding size。
- 计算注意力分数(Attention Scores)
利用 Query 和 Key 计算注意力分数。注意力分数是 Query 和 Key 的点积,
通过线性变换分别得到Query(Q)、Key(K)和Value(V):
其中分别是训练的权重矩阵,dmodel=Embedding size。
利用 Query 和 Key 计算注意力分数。注意力分数是 Query 和 Key 的点积,