1、问题描述
问题是预测 Perrin Freres 标签(以法国的一个地区命名)的香槟月销量。该数据集提供了从 1964 年 1 月到 1972 年 9 月的香槟月销售量,或不到 10 年的数据。这些值是对数百万销售额的计数,有 105 个观察值。
链接:https://pan.baidu.com/s/1DyoZ_xFZeItCfrpX1RTG2g
提取码:1f2u
将数据集下载为 CSV 文件,并将其放在当前工作目录中,文件名为“ champagne.csv ”。
2、划分数据集
假设现在是 1971 年 9 月,并在分析和模型选择中保留最后一年的数据。最后一年的数据将用于验证最终模型
下面的代码会将数据集作为 Pandas 系列加载并分成两部分,一个用于模型开发(dataset.csv),另一个用于验证(validation.csv)。
from pandas import read_csv
series = read_csv('champagne.csv', header=0, index_col=0, parse_dates=True, squeeze=True)
split_point = len(series