生物数据中的序列模式挖掘
1. 时间序列中的周期模式挖掘
在日常生活中,我们常常会遇到一些具有周期性的行为。比如,Sandy 有时会在早上 7 点读报纸,有时则会在 7 点 10 分或 7 点 15 分读,这就是一个近似周期模式。
对于数值的全周期性分析技术,在信号分析和统计学中已经有了深入的研究。像快速傅里叶变换(FFT)这样的方法,常用于将数据从时域转换到频域,以方便进行这类分析。然而,挖掘部分、分类和异步周期模式,在开发高效的数据挖掘解决方案方面带来了更具挑战性的问题。这是因为大多数统计方法或依赖于时域到频域转换的方法,在处理这些问题时要么不适用,要么成本过高。
以挖掘部分周期性为例,由于部分周期性将周期性事件和非周期性事件混合在同一周期内,像 FFT 这样的时域到频域转换方法就会失效,因为它将时间序列视为不可分割的连续值流。某些周期性检测方法可以发现一些部分周期模式,但前提是部分模式中片段(感兴趣的子序列)的周期、长度和时间安排具有特定的行为,并且需要明确指定。例如,对于 Sandy 读报纸的例子,我们需要明确指定“在 24 小时的周期内,找出 Sandy 在 7 点之后半小时内的常规活动”等细节。简单地将这些方法应用于部分周期模式挖掘问题会非常昂贵,因为需要对周期、长度和时间安排这三个参数的大量可能组合进行应用。
大多数关于挖掘部分周期模式的研究都应用了 Apriori 属性启发式方法,并采用了一些类似 Apriori 的挖掘方法的变体。约束条件也可以深入到挖掘过程中。此外,还对挖掘具有未知或近似周期的部分周期性事件模式或异步周期模式进行了研究。
挖掘部分周期性可能会发现循环或周期性关联规则,这些规则将一组周期性发生的事件关联起来