复杂度(Complexity) Self-Attention复杂度 Attention(Q,K,V)=Softmax(QKTd)VAttention(Q,K,V) = Softmax(\frac{QK^{T}}{\sqrt{d}})VAttention(Q,K,V)=Softmax(dQKT)V 线性Attention Transformer应用 MSA、W-MSA