基于机器学习的时间序列预测:降维回归方法
1. tsfresh库的有趣特性
tsfresh是一个用于时间序列特征生成的库,它有三个非常有趣的特性:
- 基于假设检验的特征选择算法 :该库能够生成成百上千个特征,因此选择与用例相关的特征非常重要。为此,它使用fresh算法,即基于可扩展假设检验的特征提取算法。
- 处理大数据集的特征生成和选择 :通过在本地机器上使用多进程处理,或者在数据无法放入单台机器时使用Spark或Dask集群进行并行处理,来处理大数据集的特征生成和选择。
- 提供变压器类 :它提供了变压器类,如FeatureAugmenter或FeatureSelector,可与scikit - learn管道一起使用。
2. 时间序列预测的降维回归
传统上,我们大多使用专用的时间序列模型进行预测任务。但使用通常用于解决回归任务的其他算法进行实验也很有趣,这样可能会提高模型的性能。
2.1 降维回归的概念
由于时间序列数据的时间依赖性,不能直接使用回归模型进行时间序列预测。需要将时间序列数据转换为监督学习问题,这一过程称为降维。降维将时间序列预测等学习任务分解为更简单的任务,然后再组合这些简单任务来解决原始任务,即将预测任务转化为表格回归问题。
2.2 降维的实际操作
降维使用滑动窗口将时间序列分割成固定长度的窗口。例如,有一个从1到100的连续数字时间序列,取长度为5的滑动窗口。第一个窗口将观测值1到4作为特征,观测值5作为目标;第二个窗口
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



