高效挖掘高实用闭项集与实时挖掘前 k 闭项集的创新方法
在大数据时代,数据量呈爆炸式增长,从海量数据中提取有价值的信息成为一项极具挑战性的任务。数据挖掘作为知识提取的重要手段,其中关联规则挖掘是生成频繁项集的常用技术。本文将介绍两种创新的挖掘方法,分别是无损高实用项集挖掘和实时高效挖掘前 k 闭项集。
1. 相关概念基础
- 频繁项集与闭项集 :频繁项集是满足用户设定阈值的项集,如果它不是任何频繁项集的子集,则为最大频繁项集。闭项集是指不存在具有相同支持计数的超集的项集。
- 支持度与置信度 :支持度表示项在数据集中出现的频率,即 Support(A => B) = P (A ∪ B);置信度表示规则为真的次数比例,即 Confidence(A => B) = P (B/A) = Support(A ∪ B) / Support(A)。
2. 无损高实用项集挖掘
2.1 交易截断问题
在隐私保护数据挖掘中,为解决长交易问题,提出了交易截断方法。当交易中的项数超过一定限制时,会移除多余的项。但这种方法存在信息丢失的问题,尽管被截断的项通常是不频繁的。
2.2 无损高实用项集挖掘方法
- 创新思路 :将闭项集挖掘与高实用项集挖掘相结合,提出了一种新的无损高实用项集挖掘方法。用户设定最小实用阈值(Min_Util_Thresh),实验表明生成的高实用闭项集(HUCI’s)是无损的。
超级会员免费看
订阅专栏 解锁全文
1162

被折叠的 条评论
为什么被折叠?



