机器学习在时间序列分析中的应用
1. 时间序列数据基础
时间序列是按时间顺序排列和索引的数据系列。它是过去在规则间隔内进行的一系列测量值 $y_t$,每个测量值都有一个实际值和时间戳。时间序列与其他类型信息的区别在于数据的时间顺序非常重要,其值通常通过跟踪某个过程并按固定间隔进行测量来收集。
时间序列可以用数学形式表示为:
$y = [y_1, y_2, …, y_n]$
由于时间序列只能进行有限次观测,其底层过程可假设为 $n$ 维的一组随机变量。假设底层过程是随机的,这样可以进行无限次观测。当用数学函数 $y_t = f(time)$ 来观测时间序列数据时,该序列被称为确定性序列;当用 $y_t = f(time, \epsilon)$ 观测,其中 $\epsilon$ 是随机项时,序列为非确定性或随机序列。此外,平稳性是时间序列的一个重要特征,平稳时间序列的属性(如统计属性)在时间上保持不变。
时间序列数据的统计属性包括均值、自相关和方差等。时间序列数据主要分为单变量时间序列(UTS)和多变量时间序列(MTS),MTS 可以看作是多个 UTS 的无限序列。如今,由于众多现实应用和人类活动产生了大量时间序列数据,UTS 和 MTS 都广泛存在。时间序列数据来源广泛,如生物信号、天气记录、股票市场数据、每月财务数据、年度出生率数据、每小时互联网数据和年度温度数据等。
时间序列数据通常通过传感器收集,传感器记录物理量并将读数转换为计算机或人类易于理解的信号。近年来,学术界和业界对将非时间数据建模为时间序列的兴趣激增,已证明可以将视频检索、图片检索、手写识别和文本挖掘等任务中的数据类型转换为时间序列信号。
时间序
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



