Multi-Head Self-Attention(多头自注意)
多头的个数用h表示,一般h = 8, 我们常用使用的是8头自注意力.

注意:Q、K、V通过线性变换后,变成了三组,这三组是不同的。
如何多头?

1、对于X,我们将X分成了8块(8头), 得到Z0-Z7。
2、然后把Z0-Z7拼接起来,再做一次线性变换(改变维度)得到Z。

作用
机器学习的本质:在做一件事情,非线性变换(把一个看起来不合理的东西,通过某个手段(训练模型),让这个东西变得合理)
非线性变换的本质:改变空间上的位置坐标,任何一个点都可以在维度空间上找到,通过某个手段,让一个不合理的点(位置不合理),变得合理。
