Transformer

会议:NIPS 2017
论文:https://arxiv.org/pdf/1706.03762.pdf
input是 x 1 ~ x 4 x_1~x_4 x1~x4,经过embending之后得到 a 1 ~ a 4 a_1~a_4 a1~a4,输入到self-attention中。对于每一个input,都乘上三个不同的权值矩阵,得到三个不同的向量 q , k , v q,k,v q,k,v。
q q q:query (to match others) q i = W q a i q^i=W^qa^i qi=Wqai