时间序列分类相似性度量及细菌传播模式提取研究
1. 时间序列相似性度量方法
1.1 自回归系数度量
自回归系数度量属于基于模型的分类范畴,它利用模型参数来计算相似性值。该方法预先从自回归(AR)模型中计算两个时间序列的自回归系数,并将对应系数之间的距离作为差异度量。此模型中的一个参数控制着 AR 系数的数量,这直接影响相似性计算的速度。
1.2 动态时间规整(DTW)距离度量
动态时间规整(DTW)是计算两个时间序列之间差异的经典方法,属于弹性度量组。它通过在时间域中对时间序列进行最优对齐,使得对齐的累积成本最小。累积成本可以通过动态规划递归计算:
[ D_{i,j} = f(x_i, y_j) + \min (D_{i,j - 1}, D_{i - 1,j}, D_{i - 1,j - 1}) ]
其中 ( i = 1 \cdots M ),( j = 1 \cdots N ),( M ) 和 ( N ) 分别是时间序列 ( x ) 和 ( y ) 的长度,且 ( f(x_i, y_j) = \sqrt{(x_i - y_j)^2} )。目前,DTW 是任何有前景的新相似性度量的主要基准,尽管其计算成本相当高。
1.3 实序列编辑距离(EDR)
实序列编辑距离(EDR)是原始编辑距离(Levensthein 距离)在实值时间序列上的扩展。通过动态规划计算 EDR 与 DTW 类似,但 ( f(x_i, y_j) ) 不同:
[ m(x_i, y_j) = \Theta(\epsilon - f(x_i, y_j)) ]
其中 ( \Theta ) 是 Heavisid