几种Attetnion机制

最新推荐文章于 2024-05-28 04:00:00 发布

原创最新推荐文章于 2024-05-28 04:00:00 发布 · 840 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

深度学习专栏收录该内容

44 篇文章

订阅专栏

本文探讨了从Seq2seq模型到引入Attention机制，再到Self-Attention的发展历程。详细解析了Attention机制如何通过Query、Key、Value三要素提升模型效率与性能，以及Self-Attention如何解决训练速度慢的问题和增强句子内部单词关联性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主要列一下参考文献，便于以后再了解~

从Seq2seq到Attention模型到Self Attention（一）
从Seq2seq到Attention模型到Self Attention（二）

Attention (Query,Key,Value)

一般Attention： Query来自Decoder中，Key=Value来自Encoder中，一般有乘法Attention和加法Attention，加法的话Query和Key的维度可以不一致，乘法Attention的一般一致，方便计算，因为eij=tanh(V*(W1Di+W2hj))，通过W1,W2可以进行恢复为统一权重；
Self-Attention:Query=Key=Value来自来自同一边，同时来自Encoder或者Decoder，这是为了解决1）原始Encoder或者Decoder中RNN的训练速度非常慢的问题；2）原始的context vector只是目标句和输入句之间的关系，却忽略了输入句或目标句中单词之间的关联，因此自然而然提出了Self-Attention方法，详见上面的参考文献~

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。