目录
1 多头注意力机制
1.1 mask
2 交互层
1 多头注意力机制
1.1 mask
ques:为什么需要mask?
ans:如果没有mask,那么在训练的时候存在you和know。如下图,但是在测试的时候,没有mask,会出现误差,模型效果不好。

需要mask 如图:
训练的时候将you和know mask掉,保证一致性。

2 交互层
所有的encoder输出和每一个decoder去做交互。

具体交互如下:
encoder生成K、V矩阵;decoder提高Q矩阵,即多有注意力机制计算K、Q、K的值。公式如下:

