时间序列的在线学习:原理、算法与漂移处理
1. 在线学习与离线学习概述
学习场景主要分为在线学习和离线学习两种。在线学习是指随着数据流入(流式数据)逐步拟合模型;而离线学习则是基于已知的静态数据集,一次性调整机器学习算法的参数(通常将整个数据集加载到内存中或分批加载)。
1.1 在线学习的应用场景
在线学习主要有以下三个应用场景:
- 大数据:在线学习适用于大数据场景,因为处理大规模数据集时,对整个数据集进行训练在计算上可能不可行。
- 时间限制:如实时应用,许多在线算法相较于离线算法资源效率更高。
- 动态环境:时间序列观测的底层生成过程可能随时间变化,在线学习算法可根据新数据不断调整参数,处理数据变化,部分算法还能应对概念漂移。
1.2 在线学习与离线学习的差异
对比项 | 离线学习 | 在线学习 |
---|---|---|
是否需要监控 | 是,模型可能过时,性能下降 | 自适应变化数据 |
重新训练成本 | 昂贵(从头开始) | 便宜(增量式) |
内存需求 | 可能需要高内存 | 低 |
应用场景 |