attention is all your need 点积注意力机制之归一化作用 Dot-Product Attention（小白+deepseek step by step）

最新推荐文章于 2025-03-15 19:00:17 发布

yuweififi

最新推荐文章于 2025-03-15 19:00:17 发布

阅读量847

点赞数 25

文章标签： transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/yuweififi/article/details/145844045

版权

一、点积注意力机制和加性注意力机制

1. 点积注意力机制（Dot-Product Attention）

原理

通过计算**查询向量（Query）和键向量（Key）**的点积（内积）得到注意力分数：
Attention(Q,K,V)=softmax(QK⊤dk)VAttention(Q,K,V)=softmax(dkQK⊤)V
- dkdk 是键向量的维度。
- 缩放因子 1dkdk1：防止点积值过大导致梯度消失。

特点

高效：点积计算复杂度为 O(n2d)O(n2d)（nn 是序列长度，dd 是维度），适合大规模并行计算。
问题：当 dkdk 较大时，点积值的方差会随维度增大而增加，导致 softmax 的梯度极小（接近 one-hot 分布）。
解决方案：引入缩放因子 dkdk，平衡点积值的量级。

应用场景

Transformer 的默认注意力机制（缩放点积注意力）。
适用于高并行化任务（如机器翻译、文本生成）。

2. 加性注意力机制（Additive Attention）

原理

通过一个可学习的神经网络计算查询和键的相似度：
Attention(Q,K,V)=softmax(MLP(Q⊕K))VAttention(Q,K,V)=softmax(MLP(Q⊕K))V
- ⊕⊕ 表示拼接（concatenation）。
- MLP 通常为单层全连接网络 + 激活函数（如 tanh⁡tanh）。

特点

灵活：通过神经网络学习复杂的相似度模式。
稳定性：对高维 dkdk 不敏感，避免点积值过大问题。
缺点：计算复杂度更高（需训练额外参数），并行效率较低。

应用场景

早期序列到序列模型（如 RNN + 注意力）。
需要复杂交互建模的任务（如某些对话系统）。

3. 关键对比

特性	点积注意力	加性注意力
计算效率	高（纯矩阵运算）	低（需训练神经网络）
参数复杂度	无额外参数	需训练 MLP 参数
对高维 dkdk 的鲁棒性	需缩放因子，否则梯度消失	天然稳定
表达能力	线性相似度	非线性相似度（更灵活）

4. 选择建议

优先点积注意力：
- 需要高效计算（如 Transformer）。
- 输入维度 dkdk 适中或已应用缩放因子。
考虑加性注意力：
- 输入维度 dkdk 极高且无法有效缩放。
- 任务需要复杂非线性交互建模。

5. 示例说明

点积注意力的问题：
当 dk=1000dk=1000 时，点积值的方差可能极大（如均值为 0，方差为 1000），softmax 后几乎只有一个位置有显著权重，导致梯度消失。
加性注意力的优势：
通过 MLP 的 tanh⁡tanh 函数将相似度限制在 [−1,1][−1,1] 范围，避免量级爆炸。

参考文献

点积注意力：Vaswani et al. (2017), Attention Is All You Need（Transformer 原始论文）。
加性注意力：Bahdanau et al. (2015), Neural Machine Translation by Jointly Learning to Align and Translate（早期注意力机制）。

二、为什么dk值越大，会引起提取消失

1. 数学背景：点积的方差随维度增长

假设查询向量 Q 和键向量 K的每个元素是独立同分布的随机变量，均值为 0，方差为 1（例如从标准正态分布中采样）。

2. Softmax 函数对极端输入值的敏感度

Softmax 函数定义为：

3. 梯度消失的原因

Softmax 的梯度计算公式为：

结果：梯度几乎全部消失，模型无法通过反向传播更新参数。

4. 缩放因子 dk的作用

5. 实际影响

当未使用缩放因子且 dk=1000 时：

注意力权重接近 one-hot：模型只能关注一个位置，丢失上下文信息。
梯度消失：参数更新停滞，模型无法学习有效的注意力模式。
训练失败：损失函数不再下降，模型性能严重受限。

总结

问题根源：高维点积导致注意力分数方差过大，softmax 饱和。
解决方案：通过 dk 缩放点积，控制方差为 1。
直观理解：将点积的“温度”（数值范围）降低，使 softmax 保持合理的概率分布。

这一机制是 Transformer 成功处理高维向量的关键设计之一。

进一步分析解释：点积取值范围与分数差异

博客等级

码龄17年

48
原创

164
点赞

154
收藏

75
粉丝

关注

私信

热门文章

分类专栏

最新评论

snpe1.55 安裝及使用-用于onnx转dlc
优快云-Ada助手: 推荐 Python入门技能树：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
python 中的os glob等路径解析操作
优快云-Ada助手: 非常棒的博客！恭喜您写了第20篇博客，标题为“python 中的路径操作”。您对Python的掌握程度令人钦佩！路径操作是Python中一个非常重要且常用的概念，您的博客内容真是对此进行了深入而清晰的阐述。在下一步的创作中，我建议您可以对路径操作进行更深入的探索，比如介绍更多关于路径的常用操作和技巧，或者分享一些实际应用案例。同时，您也可以结合其他Python相关的主题，例如文件操作、目录管理等，以丰富读者的知识面。再次恭喜您，并期待您更多精彩的博客！请继续保持谦虚的态度，我们一起努力学习和进步。加油！
给图像按标签赋值报错的问题 Scalar value for argument ‘color‘ is not numeric
优快云-Ada助手: 恭喜您写了第18篇博客！标题看起来很有趣。遇到问题时能够记录下来并分享给大家是非常棒的，这样其他人也能从中受益。在您的博客中，您提到了一个关于图像按标签赋值报错的问题。这个问题似乎是由于参数'color'没有被正确识别为数字而导致的。虽然我不是一个专家，但我想分享一些建议给您。或许您可以尝试查看文档或者其他资源，以找到解决这个问题的方法。我相信您可以找到一个解决方案并分享给我们。期待您的下一篇博客！
EfficientPS分割网络， rtx3090环境搭建避坑指南
MOSS-5th: 所以你还是装的cuda11吗？

大家在看

许少辉活力百科《乡村振兴战略下传统村落文化旅游设计》尽兴玩辉读少许

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。