self-attention 详细代码讲解 今日面试真题! 很简单,但是面试时候细节方面没有写对 1、公式 大家都熟知的: A t t e n t i o n = S o f t m a x ( Q K T d k ) V Attention = Softmax(\frac{QK^T}{\sqrt{d_k} })V Attention=Softmax(