Transform
顺序序列数据常用RNN进行训练,但是RNN又难以平行化,故催生出Attention机制的Transform
如图通过Self-Attention Layer可以平行化处理得到bi其中bi包含了整个序列的按权压缩的信息
该概念最早出现在google的一篇paper中【Attention is all you need】
首先我们将输入乘上一个matrix得到我们想要唯独的ai
之后分别乘以wq,wk,wv得到qi,ki,vi
其中qi可以看作询问,而ki则是被询问者详细可见如下图 d是q和k的维度
之所以除以根号d是为了控制不让数据过大【维度越大累加项越多和越大所以除以一个根号d】(维度的惩罚项)
询问匹配后进行soft-max
得到b1同理得到bi其中每个bi都考虑了整个序列的信息