【论文阅读笔记】《Attention is All You Need》——Attention机制和Transformer

最新推荐文章于 2025-05-08 17:14:54 发布

原创

最新推荐文章于 2025-05-08 17:14:54 发布 · 1.3k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #自然语言处理

本文深入探讨了Self-Attention机制，包括其计算过程、优势以及与RNN和CNN的对比。Self-Attention允许并行计算，解决了RNN的序列依赖问题和CNN的感受野限制。Transformer模型利用Self-Attention实现高效信息处理，而位置编码则弥补了序列信息的缺失。Decoder中的Masked Multi-Head Attention确保了自动生成序列的正确性。此外，文章提到了模型优化策略如Guided Attention和Beam Search。

Self-Attention

原理

计算两个向量之间的相关性α

在这里插入图片描述

$输入的向量分别乘矩阵W^q和W^k得到q(query)和k(key)$

$相似度\alpha =q\cdot k$

在这里插入图片描述

Self-attention

在这里插入图片描述

$得到相似度\alpha，也就是权重，和每个向量的value相乘再求和得到b^1$

$所谓self，是a^1自己也会与自己求一个权重\alpha ^{'}_{1,1}$

$其他向量也是如此，最终得到一组新的序列b^1,b^2,b^3,b^4$

在这里插入图片描述

$所以self-attention相比于RNN有一个好处：它是并行的，b^1,b^2,b^3,b^4同时计算出来$

从矩阵乘法的角度

计算q,k,v

$每一个 a 都要分别产生$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。