三大灵魂模型
Transformer
attention is all you need,现在已经是money is all you need时代了(x
首先介绍自注意力机制
Atention ( Q , K , V ) = softmax ( Q K T d k ) V \operatorname{Atention}(Q,K,V)=\operatorname{softmax}(\dfrac{QK^T}{\sqrt{d_k}})V Atention(Q,K,V)=softmax(dkQKT)V
q,k和v都是原输入x通过变换矩阵得到的
q和k相乘得到系数矩阵,用softmax进行归一化,再乘v得到加权后的表示,这就是自注意力做的事情
过程如图:
模型图
encoder与decoder,有三个多头注意力,decoder下面那个多头注意力进行了mask,因为不能让前面的token直接看到后面token的信息,会造成泄露
位置编码(绝对位置):
P E ( p o s , 2 i ) = s i n ( p o s / 1000 0 2 i / d model ) P E ( p o s , 2 i + 1 ) = c o s ( p o s / 1000 0 2 i / d model ) \begin{array}{c}PE_{(pos,2i)}=sin(pos/10000^{2i/d_{\text{model}}})\\ PE_{(pos,2i+1)}=cos(pos/10000^{2i/d_{\text{model}})}\\ \end{array} PE(pos,2i)=sin(pos/100002i/dmodel)PE(pos,2i+1)=cos(pos/10000