论文原文Attention is all you need:
https://arxiv.org/pdf/1706.03762.pdf
参考的链接:
https://zhuanlan.zhihu.com/p/46990010
https://www.tensorflow.org/tutorials/text/transformer
https://segmentfault.com/a/1190000020021078
https://blog.youkuaiyun.com/mpk_no1/article/details/72862348
0 经典attention机制 generalized
以下均已翻译模型为例子:
attention涉及的变量主要分为三部分,编码层的输入变量 h i h_i hi,解码器隐层状态相当于系统当前时间 t t t状态 s t s_t st,以及对于 ( h 1 , h 2 , ⋯ , h T x ) (h_1,h_2, \cdots, h_{T_x}) (h1,h2,⋯,hTx)这一输入的隐状态 z z z用来预测 t + 1 t+1 t+1时刻的 s s s
attention的计算总的来说分为三步
-
计算 s i s_i si和 h j h_j hj的适配程度(compatibility function),相似度
f i j = F ( s i , h j ) f_{ij} = F(s_i,h_j) fij=F(si,hj) -
归一化求出权重,通常使用softmax
w i j = e f i j ∑ k = 1 T x e f i k w_{ij} = \frac { {\rm e}^{f_{ij}}} {\sum_{k=1}^{T_x} {\rm e}^{f_{ik}}} wij=∑k=1Txefik