External Attention(EA)详解
要解决的Self-Attention(SA)的两个痛点问题:
(1)O(n^2)的计算复杂度;
(2)SA是在同一个样本上根据不同位置计算Attention,忽略了不同样本之间的联系。
因此,本文采用了两个串联的MLP结构作为memory units,使得计算复杂度降低到了O(n);
此外,这两个memory units是基于全部的训练数据学习的,因此也隐式的考虑了不同样本之间的联系。
from model.a
External Attention(EA)详解
要解决的Self-Attention(SA)的两个痛点问题:
(1)O(n^2)的计算复杂度;
(2)SA是在同一个样本上根据不同位置计算Attention,忽略了不同样本之间的联系。
因此,本文采用了两个串联的MLP结构作为memory units,使得计算复杂度降低到了O(n);
此外,这两个memory units是基于全部的训练数据学习的,因此也隐式的考虑了不同样本之间的联系。
from model.a