Self-Attention
原理
- 计算两个向量之间的相关性α

输入的向量分别乘矩阵Wq和Wk得到q(query)和k(key) 输入的向量分别乘矩阵W^q和W^k得到q(query)和k(key) 输入的向量分别乘矩阵Wq和Wk得到q(query)和k(key)
相似度α=q⋅k 相似度\alpha =q\cdot k 相似度α=q⋅k

- Self-attention

得到相似度α,也就是权重,和每个向量的value相乘再求和得到b1 得到相似度\alpha,也就是权重,和每个向量的value相乘再求和得到b^1 得到相似度α,也就是权重,和每个向量的value相乘再求和得到b1
所谓self,是a1自己也会与自己求一个权重α1,1′ 所谓self,是a^1自己也会与自己求一个权重\alpha ^{'}_{1,1} 所谓self,是a1自己也会与自己求一个权重α1,1′
其他向量也是如此,最终得到一组新的序列b1,b2,b3,b4 其他向量也是如此,最终得到一组新的序列b^1,b^2,b^3,b^4 其他向量也是如此,最终得到一组新的序列b1,b2,b3,b4

所以self−attention相比于RNN有一个好处:它是并行的,b1,b2,b3,b4同时计算出来 所以self-attention相比于RNN有一个好处:它是并行的,b^1,b^2,b^3,b^4同时计算出来 所以self−attention相比于RNN有一个好处:它是并行的,b1,b2,b3,b4同时计算出来
- 从矩阵乘法的角度
- 计算q,k,v

每一个a都要分别产生q,k,v 每一个a都要分别产生q,k,v 每一个a都要分别产生

本文深入探讨了Self-Attention机制,包括其计算过程、优势以及与RNN和CNN的对比。Self-Attention允许并行计算,解决了RNN的序列依赖问题和CNN的感受野限制。Transformer模型利用Self-Attention实现高效信息处理,而位置编码则弥补了序列信息的缺失。Decoder中的Masked Multi-Head Attention确保了自动生成序列的正确性。此外,文章提到了模型优化策略如Guided Attention和Beam Search。
最低0.47元/天 解锁文章
373

被折叠的 条评论
为什么被折叠?



