通用关联规则库:它们真的简洁吗?
在实际应用中,我们往往更关注那些在给定数量的对象中至少出现一次的项集。为了描述这种情况,我们引入了支持度的概念。
1. 支持度与频繁项集
支持度是衡量项集在数据集中出现频率的一个重要指标。具体定义如下:
- 支持度定义 :对于一个项集 (I \subseteq I),其支持度 (Supp(I)) 等于数据集中包含该项集所有项的对象数量。若 (Supp(I)) 大于或等于最小支持度阈值 (minsupp),则称项集 (I) 在数据集中是频繁的。
- 示例 :以表 1 所示的提取上下文为例,项集 “cde” 在对象 1、2 和 4 中出现,所以 (Supp(cde) = 3)。若 (minsupp = 2),由于 (Supp(cde) = 3 \geq 2),则 “cde” 是频繁项集。
频繁闭项集(CIs)可以通过冰山格(Iceberg Lattice)进行结构化表示。
- 冰山格定义 :设 (FCIK) 是从数据集 (K) 中提取的频繁闭项集的集合。当 (FCIK) 按照集合包含关系进行部分排序时,得到的结构仅保留连接运算符,这种结构称为连接半格或上半格,即冰山格。
- 示例 :图 1 展示了一个冰山格的示例,对于 (minsupp = 2),该冰山格与表 1 所示的提取上下文 (K) 相关联,每个 (\gamma) - 等价类包含一个频繁闭项集 (f) 及其支持度。
在冰山格中,每个节点(即频繁闭项集)都有一个直接覆盖它的节点集合,称为
超级会员免费看
订阅专栏 解锁全文
6万+

被折叠的 条评论
为什么被折叠?



