介绍 常规Transoformer的计算复杂度是O(L2d)O(L^2d)O(L2d),空间复杂度是O(L2)O(L^2)O(L2),在长序列的情况下,比如基因序列的处理,序列长度LLL太大会导致计算成本大到难以接受。 本文提出Fast Attention Via Orthogonal Random features (FAVOR)方法,在不改变原先transformer模型架构的前提下,高效地估计出attention矩阵,时间复杂度为O(Ld2logd)O(Ld^2\log d)O(Ld