python时间序列分类_利用Python对时间序列进行分类与聚类-优快云博客

本文介绍了如何利用Python对时间序列进行分类与聚类，主要探讨了动态时间规整(DTW)算法解决欧氏距离计算中的问题，并展示了如何结合DTW与k-NN算法进行时间序列预测，同时提到了提高DTW计算速度的策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文地址

我在最近的工作中遇到了一个问题，问题是我需要根据银行账户在一定时间内的使用信息对该账户在未来的一段时间是否会被销户进行预测。这是一个双元值的分类问题，只有两种可能，即会被销户和不会被销户。针对这个问题一般来说有两种解决策略。

提取时间序列的统计学特征值，例如最大值，最小值，均值等。然后利目前常用的算法根据提取的特征进行分类，例如Naive Bayes, SVMs 等。

k-NN方法。针对想要预测的时间序列，在训练集中找一个跟它最相似的另外一个序列，然后利用找到的序列的输出值作为原序列的预测值。

下面我会使用这两种算法，运行并对比结果，然后找到最合适的算法。

找到相似数据

针对这个问题，一般会使用欧氏距离寻找相似，但这种方法存在很多问题。如下文给出的示例。如图所示，有三个时间序列：

e8e02cdc43d5?utm_source=desktop&utm_medium=timeline

很明显，序列ts1和ts2的相似度更高，ts3和其他两个相比的差异性更大。为了验证结果，可以通过编程求得这三个序列之间的欧氏距离d(ts1, ts2)和d(ts1,ts3)。下面编写一个计算欧氏距离的函数：

def euclid_dist(t1,t2):

return sqrt(sum((t1-t2)**2))

通过计算，结果是d(ts1,ts2)=26.9，d(ts1,ts3)=23.2。很明显，与我们直觉判断相悖。这就是利用欧氏距离标准来判定相似性存在的问题。为了解决这个问题，引入另一个方法——DTW。

动态时间规整（Dynamic Time Warping, DTW）

DTW可以针对两个时间序列找到最优的非线定位（non-linear alignment)。定位之间的欧氏距离不太容易受到时间轴方向上的失真所造成的负面相似性测量的影响。但是我们也必须为这种方法付出代价，即DTW是所有用到的时间序列的数据数量的二次方。

DTW的工作方式如下。我们可以引入两个时间序列Q和C，这两个时间序列都拥有n个数据点，Q=q_1, q_2, \cdots, q_n和C=c_1, c_2, \cdots, c_n。首先我们用这两个时间序列去构造一个n\times n的矩阵，这个矩阵中的第i,j^{th}项代表的是数据点q_i和c_j之间的欧氏距离。我们需要通过这个矩阵找到一个变量，