A Time Series is Worth 64 Words: Long-term Forecasting with Transformers(PatchTST模型)

弱鸡_

已于 2024-11-27 20:01:21 修改

阅读量1k

点赞数 23

文章标签：人工智能深度学习

于 2024-11-27 18:49:26 首次发布

本文链接：https://blog.youkuaiyun.com/qq_62615329/article/details/144029275

版权

0. 摘要

作者提出了一种基于Transformer的模型，可以用于多元时间序列预测和自监督表征学习。有以下两个关键点：（1）将时间序列按照子序列的方式进行分片，这些分片称为path，作为Transformer的输入token。（2）通道独立：每个通道包含一个单变量时间序列，它们共享相同的embedding和Transformer权重。

设计的path有以下三个好处：（1）在embeding中保留了局部语义信息（2）在相同的回望窗口下，注意力图的计算量和内存使用量是平方减少的（3）模型可以看到更长的历史信息。

作者提出的通道无关模型PatchTST，显著提高长期预测的准确性；在自监督预训练任务中，也有优异的微调性能，在大数据集上优于监督学习；将在一个数据集上掩蔽预训练迁移到其他数据集上也有SOTA预测精度。

1. 简介

得益于Transformer的注意力机制能够自动学习序列中元素之间的联系，成为序列建模任务的理想选择。作者设计的PatchTST模型有以下两个关键设计：

Patching: 在时间序列预测中，我们的目的是去了解每个不同时间步间相关性。但单个时间步不像句子中的单词有语义意义，因此提取局部语义意义对于分析各时间步之间的联系是至关重要的。以前的工作大多是只使用点级输入token，或从序列中手动提取信息。相比之下，作者通过将时间步聚合为子序列级的patch来增强局部性并捕获综合语义信息，这些综合语义信息是点级输入难以获取的。

Channel-independence：多元时间序列是多通道信号，每个Transformer的输入token可以由单个通道或多通道的数据表示。通道混合是指将所有时间序列的特征向量投影到embeding空间以混合信息，作为输入token。相反，通道独立是指每个输入token只包含单个通道的信息。

作者的模型有以下优点：

（1）降低了时间和空间复杂度。原始Transformer的时空复杂度都是O(N^2)，其中N为输入token的数量。在不经过预处理的情况下，输入序列L越长，N的值越大。通过利用patching，N=L/S，从而降低了时空复杂度。

（2）长回望窗口学习能力。根据实验结果可知，增加回望窗口L可以降低MSE，然而，简单地延长L是以较大的内存和计算量为代价的。当L=380，每4步进行采样，并将最后一个点加入序列中，即token的数量N=96时的模型，该模型比使用96个时间点的模型MSE更低。实验表明即使输入tokrn数量N相同，较长的回望窗口L也传递了更重要的信息。那么如何增加回望窗口而不增加计算复杂度呢？使用patch，将相近时间点进行分组，这样增加了回望窗口L，降低了输入token的数量N。

（3）表征学习能力。随着强大的自监督学习技术的出现，具有多个非线性层的复杂模型被用来捕获数据的抽象表示。作者的PatchTST模型，不仅证实了Transformer对于时间序列预测的有效性，也证明了它的表征能力可以进一步提高预测性能。

2. 相关工作

Transformer中的patch：在Transformer的其他应用中，当局部语义信息很重要时，patch是必不可少的。

基于Transformer的长期时间序列预测：之前的大多模型都是设计新机制去降低原始注意力机制的复杂度，从而获得更好的预测性能。但大多模型使用的是点级注意力机制，忽略了patch的重要性。Autoformer使用自动关联来获得patch级的连接，但它是一种手工设计，并不包含patch内的所有语义信息。Triformer提出了patch注意力，但其目的是通过使用伪时间戳作为patch内的query来降低复杂度，因此它即没有将patch作为一个输入单元，也没有揭示其背后的语义重要性。

时间序列表征学习：除了监督学习，自监督学习也是一个重要的研究课题，因为它已经展示出为下游任务学习有用表征的潜力。尽管人们对基于Transformer的模型进行了尝试，如时间序列Transformer(TST)和TS-TCC 等，但其潜力仍未完全实现。