书接上回,我们在之前的文章已经分析了直接把transformer应用到时间序列预测问题的不足,其中我们总结了4个不足:分别是:
-
注意力机制的计算复杂度高,为 O(N^2),并且计算得出的权重仅有少部分有用;
-
注意力机制仅建立单时间点位之间的关系,实际能提取到的信息非常有限;
-
对时序或者说位置的建模表示不够充分,而时序任务中前后位置关系是重中之重;
-
没有专门的机制在数据“平稳化(之后详解)”和“非平稳化”之间达到合适的平衡。
其中Informer对第一点做了较大的改进;Non-stationary Transformers围绕第四点做了较多改进。那么2023年ICLR的文章Patch TST,对第一、二、三点,特别是第二点做了极大的改进。Patch TST发表后,现在已经有大量的Patch相关的时序论文发表,如下是一些patch相关的时序论文,Patch俨然成为最新的时序热点趋势。
香港科技大学:A Multi-Scale Decomposition MLP-Mixer for Time Series Analysis
华为:Multi-resolution Time-Series Transformer for Long-term Forecasting