Informer:最强最快的序列预测神器
AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!
01 简介
在很多实际应用问题中,我们需要对长序列时间序列进行预测,例如用电使用规划。长序列时间序列预测(LSTF)要求模型具有很高的预测能力,即能够有效地捕捉输出和输入之间精确的长程相关性耦合。最近的研究表明,Transformer具有提高预测能力的潜力。
然而,Transformer存在一些严重的问题,如:
- 二次时间复杂度、高内存使用率以及encoder-decoder体系结构的固有限制。
为了解决这些问题,我们设计了一个有效的基于变换器的LSTF模型Informer,它具有三个显著的特点:
- ProbSparse Self-Attention,在时间复杂度和内存使用率上达到了O(LlogL),在序列的依赖对齐上具有相当的性能。
- self-attention 提取通过将级联层输入减半来突出控制注意,并有效地处理超长的输入序列。
- 产生式decoder虽然概念上简单,但在一个正向操作中预测长时间序列,而不是一步一步地进行,这大大提高了长序列预测的推理速度。
在四个大规模数据集上的大量实验表明,Informer的性能明显优于现有的方法,为LSTF问题提供了一种新的解决方案。
02 背景
Intuition:Transformer是否可以提高计算、内存和架构效率,以及保持更高的预测能力?

- self-attention的二次计算复杂度,self-attention机制的操作,会导致我们模型的时间复杂度为O(L*L);
- 长输入的stacking层的内存瓶颈:J个encoder/decoder的stack会导致内存的使用为O(J* L *L) ;
- 预测长输出的速度骤降:动态的decoding会导致step-by-step的inference非常慢。