频繁模式挖掘:关键模式与序列模式处理
1 关键模式:频繁模式的完美覆盖
1.1 关键模式定义
关键模式在频繁模式挖掘中具有重要作用。设 $D$ 是一个基于项目集 $I$ 的事务数据库,$X \in P(I)$ 是一个模式。当且仅当 $Freq(\vee X) \neq \max_{x \in X}(Freq(\vee X \setminus x))$ 时,非空模式 $X$ 被定义为关键模式。用 $E$ 表示关键模式的集合,$E(F)$ 表示频繁关键模式的集合。
例如,在一个数据库示例中,模式 $AC$ 是关键模式,因为 $Freq(\vee AC) \neq Freq(\vee A)$ 且 $Freq(\vee AC) \neq Freq(\vee C)$。
1.2 频率计算
通过改进的容斥恒等式可以进行频率计算。以下是几个关键公式:
- 公式 8 :$Freq(\vee X) = \max_{Y \in E}({Freq(\vee Y) | Y \subseteq X})$,该公式展示了如何仅使用关键模式来推导任何模式的析取频率。
- 公式 9 :$\forall X \in P(I)$,设 $Y \in Argmax({Freq(\vee X’) | X’ \subseteq X \text{ 且 } X’ \in E})$,则 $Freq(X) = \sum_{X’ \subseteq X, X’ \neq \varnothing} (-1)^{|X’| - 1} \begin{cases} Freq(\vee Y) & \
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



