self-attention 详细代码讲解 今日面试真题! 很简单,但是面试时候细节方面没有写对 1、公式 大家都熟知的: Attention=Softmax(QKTdk)VAttention = Softmax(\frac{QK^T}{\sqrt{d_k} })V Attention=Softmax(dk