文章参考: Modeling Localness for Self-Attention Networks
分散注意力机制的思路是先验的让一些特征仅仅依赖于邻近的信息. 本文的思路是考虑全局信息的同时也添加局部信息.
具体地,
A ^ e G \hat{A} e^{G} A^eG
A ^ \hat{A} A^ 是权重矩阵, 即 softmax ( Q K T / d ) \text{softmax}(QK^T/\sqrt{d}) softmax(QKT/d). G n × n G_{n \times n} Gn×n, n 是文字长度(含词汇的数目), 称作 Gauss 偏向.
G i , j = − ( j − P i ) 2 2 σ i 2 . G_{i,j}=-\frac{(j-P_i)^2}{2\sigma_i^2}. Gi,j=−2σi2