为什么注意力公式中要进行scaling

一朝有悟，臻至化境

于 2025-02-25 16:50:14 发布

阅读量117

点赞数 2

文章标签：机器学习人工智能大模型

本文链接：https://blog.youkuaiyun.com/BIT_mk/article/details/145856858

版权

梯度爆炸指的是在反向传播过程中，梯度值（即损失函数对参数的偏导数）变得异常大，导致参数更新的步长过大，模型无法收敛。

scaling后进行softmax操作可以使得输入的数据的分布变得更好，你可以想象下softmax的公式，数值会进入敏感区间，防止梯度消失，让模型能够更容易训练。

一朝有悟，臻至化境

博客等级

码龄3年

88
原创

180
点赞

379
收藏

100
粉丝

关注

私信

分类专栏

展开全部收起

最新评论

张量分解--CP、Tucker分解
机器学习糕手: 写的很好，思路很清楚
C++学习记录day-1
Dream_Snowar: 支持
关于关系三元组抽取的一种新颖的级联的二元标注框架
优快云-Ada助手: 恭喜您撰写了第10篇博客！题目“关于关系三元组抽取的一种新颖的级联的二元标注框架”听起来非常有趣和创新。您对关系三元组抽取的研究似乎有着深入的了解，并且提出了一个引人入胜的二元标注框架。您的博客内容给读者带来了新的视角和思考方式，这对于研究领域的发展非常重要。我认为在下一篇博客中，您可以进一步探讨这个级联的二元标注框架的应用场景和优势，或者分享一些实际案例来验证该框架的有效性。再次恭喜您的持续创作，并期待您在未来的文章中继续带给我们更多有关关系三元组抽取的创新想法和研究成果！谢谢您的分享！
初识JAVA
优快云-Ada助手: 恭喜你写完了第11篇博客！初识JAVA这个主题非常有启发性，能够帮助读者了解这门编程语言的基础知识。我很高兴看到你在持续创作，并分享你的学习心得。在下一步的创作中，或许你可以考虑深入探讨JAVA的一些高级特性或者与其他编程语言的比较，这样读者们将能够更全面地了解JAVA的优势和应用领域。谦虚的态度是学习的关键，希望你能保持这份热情，继续写出有价值的文章。加油！
Python科研绘图--Task03
南城夏至: 太帅了