AI正在以超预期的速度大规模降低成本+大规模落地应用于普通人的日常工作与生活。于此同时,把AI用于决策支持、风险管理、运营优化也前所未有地引发了关注与重视。
今天给大家介绍一篇由蚂蚁集团和上海交通大学共同研究撰写的paper,PYRAFORMER: LOW-COMPLEXITY PYRAMIDAL AT- TENTION FOR LONG-RANGE TIME SERIES MODELING AND FORECASTING。
共同一作分别为蚂蚁高级算法工程师刘士湛、蚂蚁高级算法专家余航。
这篇关于通过精准时间序列预测来提高风险管理能力的paper被国际表征学习大会ICLR 2022收录为Oral,当年Oral 接收率仅为1.6%。发表至今两年多,在Google Scholar上的引用量已达846次,在AI领域中属于高水平引用论文。
ICLR 2022 会议项目主席对这篇Oral的评价是:作者提出了一种用于捕捉时间序列预测中长程依赖的多分辨率金字塔注意力机制,实现了线性的时间和空间复杂度。作者们进行了广泛的实验和消融研究,证明了所提出方法始终优于现有最佳水平,并为架构的各个组成部分提供了依据。他们还提供了理论证明,保证了长序列编码的线性复杂度,并充分回应了审稿人提出的问题。作者额外进行的基准测试进一步展示了该方法的卓越性能。所有审稿人都认为这项工作对该领域做出了扎实的贡献。
ICLR由Yoshua Bengio和Yann LeCun(杨立昆) 两位图灵奖得主牵头创办,被公认为全球深度学习顶级会议。
关于Pyraformer的后续研究BasisFormer: Attention-based Time Series Forecasting with Learnable and Interpretable Basis 被另一个AI顶会 NeurlPS 2023 收录。
根据过去准确预测未来至关重要
基于时间序列数据,根据过去准确预测未来至关重要,因为它为提前进行决策和风险管理提供了可能。在实践中,挑战在于构建一个灵活但简洁的模型,能够捕捉广泛的时序依赖关系。在本文中,我们通过探索时间序列的多分辨率表示,提出了 Pyraformer。具体而言,我们引入了金字塔注意力模块(PAM),其中跨尺度树状结构能够在不同分辨率上总结特征,而同尺度邻域连接则能够模拟不同范围的时序依赖关系。在温和条件下,Pyraformer 中信号传播路径的最大长度与序列长度无关,是一个常数(即 O(1)),而其时间和空间复杂度则与序列长度呈线性关系。大量数值实验结果表明,Pyraformer 在单步预测和长程预测任务中通常能够实现最高的预测精度,并且在时间和内存消耗方面表现最佳,尤其是在序列较长时。
一句话总结:我们提出了一种用于长程依赖建模和时间序列预测的多分辨率金字塔注意力机制,成功地将信号传播路径的最大长度降低到 O(1),同时实现了线性的时间和空间复杂度。
时间序列预测是决策制定和风险管理的基石
时间序列预测是决策制定和风险管理等下游任务的基石。例如,可靠地预测微服务的在线流量可以为云系统中的潜在风险提供早期预警。此外,它还为动态资源分配提供指导,以在不降低性能的情况下最小化成本。除了在线流量,时间序列预测还在疾病传播、能源管理和经济金融等领域得到了广泛应用。
时间序列预测的主要挑战在于构建一个强大但简洁的模型,能够紧凑地捕捉不同范围的时序依赖性。时间序列通常表现出短期和长期的重复模式,将这些模式纳入考虑是实现准确预测的关键。特别值得注意的是处理长程依赖性这一更具挑战性的任务,其特征是时间序列中任意两个位置之间最长信号穿越路径的长度。路径越短,依赖性捕捉得越好。此外,为了使模型能够学习这些长期模式,输入模型的历史数据也应该是长的。因此,低时间和空间复杂度是优先考虑的。
不幸的是,现有的最先进方法未能同时实现这两个目标。一方面,RNN和CNN实现了与时间序列长度L线性的时间复杂度,但它们的最长信号穿越路径为O(L),因此难以学习远距离位置之间的依赖性。另一方面,Transformer显著将最长路径缩短为O(1),但代价是时间复杂度增加到O(L²)。因此,它无法处理非常长的序列。为了在模型容量和复杂度之间找到折衷,提出了Transformer的变体,例如Longformer、Reformer和Informer。然而,很少有方法能够在显著降低时间和空间复杂度的同时,将最长路径长度缩短到小于O(L)。
在本文中,我们提出了一种新颖的基于金字塔注意力的Transformer(Pyraformer),以弥合捕捉长程依赖性和实现低时间和空间复杂度之间的差距。具体而言,我们通过在金字塔图中基于注意力传递消息来开发金字塔注意力机制,如图1(d)所示。该图中的边可以分为两组:跨尺度连接和同尺度连接。跨尺度连接构建了原始序列的多分辨率表示:最细尺度的节点对应于原始时间序列中的时间点(例如,小时观测),而较粗尺度的节点表示较低分辨率的特征(例如,日、周和月模式)。这些较粗尺度的节点最初通过粗尺度构建模块引入。另一方面,同尺度边通过连接邻近节点来捕捉每个分辨率上的时序依赖性。因此,该模型通过在较粗分辨率上捕捉这种行为,为远距离位置之间的长程时序依赖性提供了一种紧凑的表示,从而导致信号穿越路径的长度更短。此外,在不同尺度上用稀疏的邻域同尺度连接建模不同范围的时序依赖性显著降低了计算成本。简而言之,我们的主要贡献包括:
01
我们提出Pyraformer,以紧凑的多分辨率方式同时捕捉不同范围的时序依赖性。为了将Pyraformer与最先进的方法区分开来,我们在图1中从图的角度总结了所有模型。
02
理论上,我们证明了通过适当选择参数,可以同时达到O(1)的最长路径长度和O(L)的时间与空间复杂度。为了突出所提模型的吸引力,我们进一步在表1中从最长路径和复杂度的角度比较了不同模型。
03
实验上,我们表明,在单步和长程多步预测的情景下,所提出的Pyraformer在各种真实世界数据集上的预测精度高于原始Transformer及其变体,但时间和内存成本更低。
实验结果
A、单步预测
我们在三个数据集上做了单步预测实验:Electricity, Wind和App Flow。预测基于的历史序列长度分别为169、192和192,包括结束标志。我们将Pyraformer与其他5种注意力机制进行了对比,包括原始的Full-attention[1],LogTrans[8],Reformer[3],ETC[7]和Longformer[2]。对于ETC,我们在最精细的尺度上等间隔地选取节点作为全局节点。全局节点可以关注到序列中的所有节点,同时,所有节点也都可以关注到全局节点。实验中所有模型使用相同的训练和测试方式。我们进一步研究了训练技巧对各个方法的影响,包括预训练策略、训练集加权采样和高难样本挖掘,并给出了最好的结果。我们采用NRMSE(归一化RMSE)和ND(归一化偏差)作为评价指标。各方法的结果展示在表2中。为了进行公平的比较,除了Full-attention外,所有稀疏注意力机制的查询向量与键向量的点积数量被控制在相同的数量级。
实验结果表明,Pyraformer在NRMSE和ND方面优于Transformer及其变种,并且具有最少的计算量。从表2中可以观察到三个主要的趋势:
01:我们提出的Pyraformer预测最准确,表明金字塔形的图结构可以更好地捕捉不同范围的时间依赖关系。有趣的是,对于Wind数据集,稀疏注意机制(即LogTrans、ETC、Longformer和Pyraformer)优于原始的Transformer,这可能是因为数据包含大量的零,而适当的稀疏性有助于避免过拟合。
02:Pyraformer中的Q-K对最少,这表明Pyraformer的时空复杂度较低。值得注意的是,Pyraformer的Q-K对比LogTrans少65.4%,比Full-attention少96.6%。
03:由于使用了CSCM,Pyraformer的参数量比其它模型(即Transformer, LogTrans、ETC、Longformer)稍大一些。然而,CSCM模块是非常轻量的,只会导致Pyraformer的模型大小比其它模型仅仅高出5%。此外,在实际应用中,我们可以固定超参数A,S 和 N,并且确保 C 满足一定条件,就可以确保CSCM额外引入的参数只有
B:长程预测
我们在三个数据集上评估了Pyraformer的长程预测性能,包括Electric,ETTh1,和ETTm1。对于ETTh1和ETTm1,我们进行的是多元时序预测,同时预测了未来油温和电力负荷等共7个特征。 我们将2.3节中提出的两个预测模块装配到所有模型上进行了测试,并在表3中列出了最好的结果。
可以看到,在所有数据集和所有预测长度上,Pyraformer仍然以最少的Q-K对达到了最好的性能。在ETTh1数据集上,与Informer[4]相比,Pyraformer的MSE在预测长度为168、336和720时分别降低了24.8%、28.9%和26.2%。这再次证明了金字塔图在建模多范围时间依赖性上的有效性。有趣的是,我们注意到对于Pyraformer,第一个预测模块的效果比第二个预测模块的结果更好。一种可能的解释是:基于全连通注意力层的第二个预测模块无法区分不同分辨率的特征,而基于单个全连接层的第一个模块受益于输入特征本身具有较强的结构性,可以充分利用这些特征。
C:速度和显存占用
为了检验基于TVM实现的PAM专用CUDA核的效率,我们在图4中分别以计算时间和显存占用为纵轴,以序列长度L 为横轴,画出了二者随序列长度的变化。这里我们只比较了Informer[4]中的prob-sparse注意力机制、全连通注意力机制和PAM。