Scaled Dot-Product Attention

最新推荐文章于 2025-06-02 12:20:51 发布

原创

最新推荐文章于 2025-06-02 12:20:51 发布 · 1.6k 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文详细阐述了ScaledDot-ProductAttention在Transformer模型中的作用，涉及点积计算、缩放处理和softmax归一化，强调了其在动态关注输入序列依赖关系中的核心功能。

Scaled Dot-Product Attention 是Transformer模型中核心的注意力机制之一，它的基本思想是通过计算query（查询）向量与一组key（键）向量之间的点积相似度，并通过softmax函数转换为概率分布，然后用这个概率分布加权value（值）向量，从而聚焦在最重要（相似度最高）的信息上。

Scaled Dot-Product Attention 最本质最重要的步骤包括三个核心计算部分：

点积计算（Dot Product）：首先，将查询（Query）矩阵 Q 和键（Key）矩阵 K 进行点积运算。这一步骤计算了查询向量和所有键向量之间的相似度得分，即衡量查询向量与每一个位置上的键向量有多匹配。
缩放（Scaling）：由于随着维度 d_k 的增加，点积的结果也会迅速增大，可能导致softmax函数梯度变得极小，影响训练效果。因此，对点积结果除以 √d_k 进行缩放，这样可以保持各个位置上的注意力得分在softmax之前具有相近的尺度，确保模型收敛性能更好。
Softmax归一化（Softmax Normalization）：对缩放后的点积结果应用softmax函数，将得分转化为概率分布。softmax函数将所有位置上的注意力得分转换为概率形式，使得它们总和为1，从而决定在计算最终输出时各位置值向量（Value）的相对重要性。
加权求和（Weighted Sum）：最后，将注意力权重矩阵与值（Value）矩阵 <

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。