基于约束的模式挖掘算法详解
1. 引言
在模式挖掘领域,基于约束的模式挖掘是一个重要的研究方向。它旨在从数据中挖掘出满足特定约束条件的模式,这些约束条件可以是最小支持度、最大模式大小等。在挖掘过程中,我们常常会遇到不同类型的约束,如反单调约束、单调约束和可边界约束等。为了高效地挖掘出满足这些约束的模式,人们提出了多种算法,主要包括广度优先(BFS)或逐层算法和深度优先算法。
2. 模式的表示与约束类型
2.1 闭项集与最大模式
闭项集是指没有超集具有相同支持度的项集。例如,假设 {1} 不是闭项集,而 {1, 2} 是闭项集,当有最大大小约束为 1 时,项集 {1} 在一种设置下可能不在输出中,但在另一种设置下可能会在输出中。
最大模式是指在给定一般性关系 ⪰ 和约束 ϕ 下,如果不存在更具体的模式 π′ (π ≻ π′)使得 π′ 满足约束 ϕ,则模式 π 相对于约束 ϕ 是最大的。与闭项集相比,最大项集不再允许我们恢复一组模式的支持度。如果约束 ϕ 是最小支持度约束,通常称为最大频繁模式。
2.2 边界表示
不同的约束会在模式空间中定义边界。反单调约束定义的边界使得所有满足约束的模式在边界的一侧,而不满足的在另一侧;单调约束定义的边界是满足约束的最小模式的边界。不同的边界可以组合,例如在监督数据的分析中,数据库由两类示例组成,我们可以寻找在一类中频繁但在另一类中不频繁的所有模式,这些模式集有两个边界:最具体模式的边界和最一般模式的边界。
2.3 可边界约束
最小支持度约束是 f (π) ≥ θ 类型约束的一个例子。随着研究的深入,人们开始研究
超级会员免费看
订阅专栏 解锁全文
1456

被折叠的 条评论
为什么被折叠?



