关联规则与概念格在数据处理中的应用探索
在数据处理和知识发现领域,关联规则挖掘和概念格表示是两个重要的研究方向。关联规则挖掘有助于发现数据集中不同项目之间的潜在关系,而概念格则为数据的结构化表示和分析提供了强大的工具。下面将详细介绍相关的实验研究和理论推导。
关联规则实验研究
为了评估(简洁)通用关联规则的数量,我们在基准数据集上进行了实验。这些数据集的特点如下表所示:
| 数据集 | 项目数量 | 对象数量 | 平均对象大小 | 最小支持度区间(%) |
| — | — | — | — | — |
| PUMSB | 7,117 | 49,046 | 74.00 | 90 - 60 |
| MUSHROOM | 119 | 8,124 | 23.00 | 1 - 0.01 |
| CONNECT | 129 | 67,557 | 43.00 | 90 - 50 |
| T40I10D100K | 1,000 | 100,000 | 39.61 | 10 - 1 |
我们使用固定的最小支持度值,以对的大小作为评估标准,比较了(SGB, SRI)和(GB, RI)这两对。具体来说,对于PUMSB(分别对应CONNECT、MUSHROOM和T40I10D100K)数据集,最小支持度值分别设为70%(分别对应50%、0.01%和1%)。实验结果表明,去除频繁MG集中的冗余可以无损地减少提取的通用关联规则的数量。
例如,使用SSMG可以平均去除从PUMSB(分别对应MUSHROOM)数据集中提取的63.03%(分别对应49.46%)的冗余通用关联规则。对于PUMSB(分别对应MUSHROOM)数据集,当最小置
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



