Scaled Dot-Product Attention(缩放点积注意力)详解
Scaled Dot-Product Attention(缩放点积注意力)是 Transformer 架构中的核心机制,由 Vaswani 等人在 2017 年《Attention Is All You Need》 论文中提出。它用于计算输入序列中不同位置之间的相关性,从而动态调整权重,使模型能够关注最重要的信息。
1. 核心公式
缩放点积注意力的计算过程如下:
Attention(Q,K,V)=softmax(QKTdk)VAttention(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)VAttention(Q,K,V)=softmax(dkQKT

最低0.47元/天 解锁文章
372

被折叠的 条评论
为什么被折叠?



