基于约束的情节规则挖掘与最优窗口大小
1. 引言
许多数据集由大量事件序列组成,每个事件由发生日期和事件类型描述。常见的描述性模式是情节规则,它能反映特定事件类型组之间的关联。情节规则有频率和置信度两个度量,分别表示两组事件共同出现的频率和规则的强度。
情节规则挖掘在多个领域有重要应用,如TASA项目中的警报日志分析,还可应用于时间序列和空间数据,如DNA序列。
标准的情节规则挖掘问题是找到满足给定频率和置信度约束的所有情节规则。主要有两种方法:
- Winepi算法:基于模式在滑动窗口中的出现情况。
- Minepi算法:依赖模式的最小出现概念。
这两种方法都使用最大窗口大小约束,但在某些应用中,窗口大小事先未知,且不同规则的合适窗口大小可能不同。因此,有人提出使用最大间隙约束,它规定了情节出现中两个连续事件之间的最大时间间隔。不过,现有的处理最大间隙约束的算法并不完整。
本文的贡献有两点:一是提出了一个健全且完整的算法,用于挖掘满足频率、置信度和最大间隙约束的情节规则;二是为每个规则找到对应局部最大置信度的最小窗口大小。
2. 情节规则与局部最大置信度
2.1 初步定义
- 事件与有序事件序列 :设E是事件类型的集合,事件由对 (e, t) 定义,其中 e 是事件类型,t 是事件发生的时间。有序事件序列是一个元组,满足时间顺序。
- 子序列运算符 :如果一个有序事件序列可以通过移除另一个有序事件序列的某些元素得到,则称前者是后者的子序列。
超级会员免费看
订阅专栏 解锁全文
2319

被折叠的 条评论
为什么被折叠?



