自注意机制中添加局部信息

最新推荐文章于 2024-08-22 12:26:56 发布

吴云理

最新推荐文章于 2024-08-22 12:26:56 发布

阅读量2.3k

点赞数

分类专栏：机器学习局部信息文章标签：机器学习深度学习 transformer

本文链接：https://blog.youkuaiyun.com/wuyuanli_r/article/details/122319606

版权

文章参考: Modeling Localness for Self-Attention Networks

分散注意力机制的思路是先验的让一些特征仅仅依赖于邻近的信息. 本文的思路是考虑全局信息的同时也添加局部信息.
具体地,
$\hat{A} e^{G}$
$\hat{A}$ 是权重矩阵, 即 $\text{softmax}(QK^T/\sqrt{d})$ . $G_{n \times n}$ , n 是文字长度(含词汇的数目), 称作 Gauss 偏向.
$G_{i,j}=-\frac{(j-P_i)^2}{2\sigma_i^2}.$