AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!

Informer:最强最快的序列预测神器

AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!

v2-071e132c7353c2be34deb925be1bf617_b.jpg
作者:一元,公众号:炼丹笔记

01 简介

在很多实际应用问题中,我们需要对长序列时间序列进行预测,例如用电使用规划。长序列时间序列预测(LSTF)要求模型具有很高的预测能力,即能够有效地捕捉输出和输入之间精确的长程相关性耦合。最近的研究表明,Transformer具有提高预测能力的潜力。

然而,Transformer存在一些严重的问题,如:

  • 二次时间复杂度、高内存使用率以及encoder-decoder体系结构的固有限制。

为了解决这些问题,我们设计了一个有效的基于变换器的LSTF模型Informer,它具有三个显著的特点:

  • ProbSparse Self-Attention,在时间复杂度和内存使用率上达到了O(LlogL),在序列的依赖对齐上具有相当的性能。
  • self-attention 提取通过将级联层输入减半来突出控制注意,并有效地处理超长的输入序列。
  • 产生式decoder虽然概念上简单,但在一个正向操作中预测长时间序列,而不是一步一步地进行,这大大提高了长序列预测的推理速度。

在四个大规模数据集上的大量实验表明,Informer的性能明显优于现有的方法,为LSTF问题提供了一种新的解决方案。

02 背景

Intuition:Transformer是否可以提高计算、内存和架构效率,以及保持更高的预测能力?

v2-5a4f470d2fbdc80672ff151b111cd0f0_b.jpg
  • self-attention的二次计算复杂度,self-attention机制的操作,会导致我们模型的时间复杂度为O(L*L);
  • 长输入的stacking层的内存瓶颈:J个encoder/decoder的stack会导致内存的使用为O(J* L *L) ;
  • 预测长输出的速度骤降:动态的decoding会导致step-by-step的inference非常慢。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值