阅读论文:
- Wu, Haixu, et al. “Autoformer: Decomposition transformers with auto-correlation for long-term series forecasting.” Advances in neural information processing systems 34 (2021): 22419-22430.
背景与动机
由于难以捕捉时间序列本身的复杂时序模式,长期时序预测难以进行。而善于捕捉长序依赖的经典自注意力机制由于其平方计算复杂度而让人望而却步。为了发挥注意力机制的长序依赖建模能力,文章强调并解决了长期时序预测中,复杂时序模式难捕捉和注意力机制计算量大的问题。
模型
文章的模型整体结构参考了原始Transformer,采用了Encoder-Decoder结构。其中最为不同的是文章引入的两个block,分别用于应对背景中提出的两个主要问题。
Encoder部分用于建模学习时序数据的季节性部分,最终Series Decomp block分解输出的趋势部分是被裁掉的,只有季节性部分输出到Decoder进行互相关计算。
Decoder部分对于周期分量使用自相关机制进行依赖建模,并聚合与相似过程的子序列;对于趋势分量,使用加权累积方式,逐步从预测的隐变量中提取出趋势信息。而最终的预测结果是由预测的趋势分量和季节性分量加权相加得到的。
S d e l , 1 , T d e l , 1 = SeriesDecomp ( Auto-Correlation ( X d e l − 1 ) + X d e l − 1 ) S d e l , 2 , T d e l , 2 = SeriesDecomp ( Auto-Correlation ( S d e l , 1 , X e n N ) + S d e l , 1 ) S d e l , 3 , T d e l , 3 = SeriesDecomp ( FeedForward ( S d e l , 2 ) + S d e l , 2 ) T d e l = T d e l − 1 + W l , 1 ∗ T d e l , 1 + W l , 2 ∗ T d e l , 2 + W l , 3 ∗ T d e l , 3 \begin{aligned} \mathcal{S}_{\mathrm{de}}^{l, 1}, \mathcal{T}_{\mathrm{de}}^{l, 1} & =\operatorname{SeriesDecomp}\left(\text { Auto-Correlation }\left(\mathcal{X}_{\mathrm{de}}^{l-1}\right)+\mathcal{X}_{\mathrm{de}}^{l-1}\right) \\ \mathcal{S}_{\mathrm{de}}^{l, 2}, \mathcal{T}_{\mathrm{de}}^{l, 2} & =\operatorname{SeriesDecomp}\left(\text { Auto-Correlation }\left(\mathcal{S}_{\mathrm{de}}^{l, 1}, \mathcal{X}_{\mathrm{en}}^N\right)+\mathcal{S}_{\mathrm{de}}^{l, 1}\right) \\ \mathcal{S}_{\mathrm{de}}^{l, 3}, \mathcal{T}_{\mathrm{de}}^{l, 3} & =\operatorname{SeriesDecomp}\left(\text { FeedForward }\left(\mathcal{S}_{\mathrm{de}}^{l, 2}\right)+\mathcal{S}_{\mathrm{de}}^{l, 2}\right) \\ \mathcal{T}_{\mathrm{de}}^l & =\mathcal{T}_{\mathrm{de}}^{l-1}+\mathcal{W}_{l, 1} * \mathcal{T}_{\mathrm{de}}^{l, 1}+\mathcal{W}_{l, 2} * \mathcal{T}_{\mathrm{de}}^{l, 2}+\mathcal{W}_{l, 3} * \mathcal{T}_{\mathrm{de}}^{l, 3} \end{aligned} Sdel,1,Tdel,1Sdel,2,Tdel,2Sdel,3,Tdel,3Tdel=SeriesDecomp