Transformers in Time Series: A Survey
摘要
Transformers在自然语言处理和计算机视觉方面的许多任务中都取得了优异的性能,这也引起了时间序列社区的极大兴趣。
在Transformer的多种优势中,捕获远程依赖关系和交互作用的能力对时间序列建模特别有吸引力,从而在各种时间序列应用中取得了令人兴奋的进展。
在本文中,我们系统地回顾了Transformer方案的时间序列建模,强调了它们的优点和局限性。
特别地,我们从两个角度研究了时间序列Transformer的发展。
从网络结构的角度,我们总结了对Transformer的适应和修改,以适应时间序列分析中的挑战。
从应用的角度来看,我们根据预测、异常检测和分类等常见任务对时间序列Transformer进行了分类。
根据经验,我们进行了稳健分析、模型规模分析和季节趋势分解分析,以研究Transformer在时间序列中的表现。
最后,我们讨论并提出了未来的发展方向,以提供有用的研究指导。
在GitHub存储库1中可以找到将不断更新的相应资源列表。
1. 介绍
最近由于Transformer在深度学习方面的创新和其在自然语言处理、计算机视觉、语音处理和其他学科方面优秀的性能,为其带来了极大的关注。在过去的几年里,许多Transformer的变体已经被提出,以显著地推进各种任务的最先进的性能。有相当多来自不同方面的文献综述,包括NLP应用、CV应用、高性能Transformer以及Attention模型等。
Transformer在连续数据中的随机依赖和交互方面显示出了强大的建模能力,以这种方式对时序数据建模应该很合适。
Transformer的许多变体已被提出以解决时间序列建模中的特殊挑战,并已成功应用于各种时间序列任务,如预测,异常检测,分类等等。
例如,季节性或周期性是时间序列的一个重要特征。
如何有效地建模长期和短期的时间依赖关系并同时捕获周期性仍然是一个挑战。
由于时间序列中的Transformer是深度学习中的一个新兴课题,对时间序列中的Transformer进行系统、全面的调查将极大地有利于时间序列社区发展。
我们注意到有几项与时间序列的深度学习相关的调查,包括预测,分类,异常检测,数据增强,但基于Transformer研究时间序列方面的内容很少。
在本文中,我们旨在通过总结时间序列Transformer的主要发展来填补空白。
我们首先简要介绍普通Transformer,然后从时间序列Transformer的网络修改和应用领域的角度提出了一种新的分类方法。
对于网络的修改,我们讨论Transformer在低级(即模块)和高级(即架构)上的改进,目的是优化时间序列建模的性能。
在应用中,我们分析和总结Transformer为流行的时间序列任务,包括预测、异常检测和分类。
对于每个时间序列的Transformer,我们分析了它的理解力,优势和局限性。
为了提供关于如何有效地使用Transformer进行时间序列建模的实用指导方针,我们进行了广泛的实证研究,以检验时间序列建模的多个方面,包括鲁棒性分析、模型大小分析、和周期性趋势的分解分析。
我们通过讨论时间序列Transformer未来可能的方向来结束这项工作,包括时间序列Transformer的感应偏差,时间序列的Transformer和GNN,预先训练的Transformer为时间序列,以及Transformer与NAS的时间序列。
据我们所知,这是第一次全面和系统地回顾Transformer对时间序列数据建模的关键发展。
我们希望这项调查能激发人们对时间序列Transformers的进一步研究兴趣。
2. 关于Transformers的准备工作
2.1 Vanilla Transformer
Vanilla Transformer遵循最具有竞争力的神经序列模型,具有编码器-解码器结构。
编码器和解码器都是由多个相同的块组成的。
每个编码器块由一个多头自注意模块和一个位置前馈网络(FFN)组成,而每个解码器块在多头自注意模块和位置前馈网络(FFN)之间插入交叉注意力模型。
2.2 Input Encoding and Positional Encoding(输入编码与位置编码)
与LSTM或RNN不同,Transformer没有循环,也没有卷积。相反,它利用添加在输入嵌入中的位置编码,来建模序列信息。
我们在下面总结了一些位置编码。
绝对位置编码
在普通变换中,对于每个位置索引t,编码向量为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d3b9tykr-1676994055358)(C:\Users\Devshilei\Desktop\transformer\公式1.png)]
其中,ωiω_iωi是每个维度的手工制作的频率。另一种方法是为每个位置学习一组更灵活的位置嵌入[肯顿和图塔诺瓦,2019年;Gehring等人,2017]。
相对位置编码
根据直觉,输入元素之间的成对位置关系比元素之间的位置更有益,于是提出了相对的位置编码方法。
例如,其中一种方法是向注意机制的键添加一个可学习的相对位置嵌入。
除了绝对和相对位置编码外,还有一些使用混合位置编码的方法将它们组合在一起。
通常,位置编码被添加到token embedding中,并被提供给转换器。
2.3 Multi-head Attention(多头Attention)
采用查询-键-值(QKV)模型,Transformer使用的比例点积注意度为

本文详细回顾了Transformer在时间序列建模中的应用,探讨了网络结构的修改和不同应用场景,如预测、异常检测。研究发现Transformer在处理时间序列数据时的位置编码、注意力模型和架构创新对其性能至关重要。然而,随着输入序列长度的增加,Transformer的性能会下降,这提示需要更有效地处理长序列的方法。此外,预训练模型和神经结构搜索在时间序列Transformer中的潜力也被提出作为未来研究方向。
最低0.47元/天 解锁文章
1262

被折叠的 条评论
为什么被折叠?



