低秩自注意力
自注意力一般是低秩的, 证明参考Linformer: Self-Attention with Linear Complexity 定理 1.这也比较容易猜测出来. 因为文本词汇大多数依赖于自己距离很近的词汇, 较少依赖距离较远的词汇.这意味着可以使用 两个矩阵逼近 WQW^QWQ 或者 WKW^KWK. 其中一个矩阵是带状矩阵, 另一个是稀疏低秩矩阵. 明显带装矩阵只有下图蓝色部分需要确定, 其余为0. 低秩矩阵可以看成是小矩阵的乘积.假定正常 注意力机制 权重矩阵为A:=HWQ(WK)THT,
原创
2022-01-04 11:27:44 ·
1920 阅读 ·
0 评论