注意力机制定义 传统的注意力机制QK不同源。 而在自注意力机制中,QKV都来自于同一组元素,是想让机器注意到整个输入中不同部分之间的相关性。 计算方式: Attention(Q,K,V)=Softmax(Q⋅KTdk)⋅V Attention(Q,K,V)=Softmax(\frac{Q·K^T}{\sqrt{d_k}})·V Attention(Q,K,V)=