©作者 | 董叶
时间序列是一种特殊类型的数据集,其中随时间测量一个或多个变量。
例如天气变化, 股票价格变动,时间序列分析即是通过构建模型反映时间序列中包含的动态依存关系,并借以对未来发生的变化做预测。对最近7天的天气、明天收盘股价的预判。
01 时间序列分析的模型分类
目前发展的时间序列分析模型主要有三种:
1.1 经典时间序列模型
经典时间序列模型是一系列统计模型,例如自回归模型(AR)、整合移动平均自回归模型(ARIMA), 广义自回归条件异方差模型(GARCH),它们基于时间序列内的时间变化,并且适用于单变量时间序列,这些模型一般只适用于时间序列。
1.2 监督模型
线性回归、随机森林、XGBoost 这类经典的机器学习算法,虽然不是专门为时间序列分析而设计,但是在变量预测问题有着很好的效果。
1.3 深度学习模型
长短时记忆模型LSTM、Facebook开源时间序列库Prophet,亚马逊DeepAR, 此类模型能够自动从原始数据和不完整数据中学习和提取特征,同时考虑时间序列长期和短期的数据依赖。
02 时间序列数据的主要特性
2.1 时间序列数据的三个组成部分:季节性、趋势和噪声
季节性是出现在时间序列变量中的重复运动。例如,一个地方的温度在夏季较高,而在冬季较低。可以计算平均每月温度并使用此季节性作为预测未来值的基础。
趋势可以是长期向上或向下的模式。在温度时间序列中,由于全球变暖可能会出现趋势。例如,除了夏季/冬季季节性之外,很可能会看到平均温度随着时间的推移略有上升。
噪声是时间序列中可变性的一部分,既不能用季节性也不能用趋势来解释的部分, 始终存在的误差项。
2.2 时间序列数据中的自相关
自相关是时间序列的当前值与过去值之间的相关性,这意味着可能用历史数据预测未来。自相关具有非常