数据来源于 UC Irvine Machine Learning Repository网站中的Beijing PM2.5 Data Data Set,数据文件类型为CSV。
一、利用ARMA模型
数据平稳性分析
还是以天为单位分析这五年之内的pm2.5值,并绘制曲线
ARIMA 模型对时间序列的要求是平稳型,观察图标能看出其没有固定的上升或下降的趋势,粗略判断是平稳序列。不进行差分操作,同时使用ADF单位根平稳型检验,对序列进行平稳性检验。
from statsmodels.tsa.stattools import adfuller as ADF
ADF(test)
#返回值依次为adf、pvalue、usedlag、nobs、critical values、icbest、regresults、resstore
得到结果如下:
(-18.23039005254537, 2.3680392326349674e-30, 2, 1568,
{'1%': -3.434527319939446, '10%': -2.56775226495796, '5%': -2.863385036059078}, 17309.834345756433)
- 1%、%5、%10不同程度拒绝原假设的统计值和ADF Test result的比较,ADF Test result同时小于1%、5%、10%即说明非常好地拒绝该假设.本数据中,adf结果为-18.23