提示:结合论文和代码讲解TSMixer模型
文章信息
- 模型: TSMixer
- 关键词: MLP-Mixer,时间混合,特征混合
- 发表情况: KDD 23
- 机构:IBM Research
- 网址: [2306.09364] TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series Forecasting
前言
- 交叉变量信息(cross-variate information)
在许多常用的预测基准上,基于Transformer的模型可以被证明比简单的单变量时间线性模型(如DLinear)要差得多。多变量模型似乎存在过拟合的问题,尤其是当目标时间序列与其他协变量不相关时。作者提出了两个问题:
(1)交叉变量信息真的能为时间序列预测提供好处吗?
(2)当交叉变量信息不是有益的,多变量模型仍然可以表现得像单变量模型一样好吗?
时间序列的信息:
持续的时间模式:包括趋势和季节性模式,例如,长期通货膨胀、工作日的影响;
交叉变量信息:不同变量之间的相关性,例如,血压升高与体重升高相关;
辅助特征:包括静态特征和未来信息,如产品类别和促销活动。
-
线性模型的有效性
事实证明,“时间序列的时间步依赖(time-step-dependent)特征使时间线性模型成为在常见假设下学习时间模式的绝佳候选者。”在此,TSMixer的创建者决定通过两个很酷的步骤来增强线性模型。
(1)stacking temporal linear models with non-linearities(神经网络作为一种机器学习方法的特点——非线性近似,在此指的就是MLP)
(2)引入交叉变量前馈层(TSMixer)——用于处理交叉变量信息。
有效性证明:
-
模型分类
按照对时间序列的信息的利用情况