数据挖掘系列之三:频繁模式、关联和相关

1.频繁项集

1.1理解基本概念

项集的出现频率:包含项集的事务数。也称作频率、支持度计数、计数。

只要得到A,B和A交B的支持度计数,就可以导出对应的关联规则A=>B和B=>A,并检查它们是否是强规则。如此,挖掘关联规则的问题就可以归结为挖掘频繁项集。

一般地,关联规则的挖掘可以看做两步的过程:

1)找出所有的频繁项集:满足最小支持度min_sup;

2)由频繁项集产生强关联规则:同时满足min_sup和最小置信度min_conf;

通常,上述A交B写作A并B,可作如下两种理解:

1)若写作A并B,则其并非概率论中的随机事件,A并B仅看做A中项集和B中项集的并集,P(A并B)即包含A中项集同时包含B中项集的事务数(所占比例)。

2)若写作A交B,则可与概率中随机事件相似理解,A为事件:全集中含有A中项集的事务,B:全集中含有B中项集的事务,则A交B:全集中含有A且含有B的事务。

闭频繁项集:若不存在项集X的真超项集Y使得Y与X在数据集S中有相同的支持度计数,则称X在S中是闭的。若X在S中是闭的和频繁的,则项集X是数据集S中的闭频繁项集。

极大频繁项集(极大项集):若X是频繁的,且不存在超项集Y也是频繁的。

注意:闭的未必是频繁的,但极大项集必定是频繁的。

1.2频繁项集挖掘方法(有效的、可伸缩的)

最简单形式的频繁模式:单维(一个谓词)、单层(涉及唯一抽象层)、布尔(所处理的值类型)频繁项集(所挖掘的模式类型)。

主要步骤

-连接步:可连接的是指仅最后一个元素不同
-剪枝步:采用Apriori性质和散列树
Apriori性质:项集X是频繁的<=>X的所有非空子集是频繁的<=>X的所有1项集是频繁的。
APriori性质属于反单调性(若一个集合不能通过测试,则它的所有超集也都不能通过相同的测试)
-数据集全扫描计数

伪代码

代码实现

例子

2.关联分析

此处讨论由频繁项集产生强关联规则的最简单形式(单维、单层、布尔)。
步骤
1)对于每个频繁项集l,产生l所有非空子集。
2)对于l的每个非空子集s,若support_count(l)/support_count(s) >= min_conf,则输出规则“s => (l-s)”。

3.相关分析



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值