关联分析中的支持度、置信度和提升

本文深入解析了关联规则学习中的核心概念,包括支持度、置信度和提升度的定义及计算方法。通过具体案例,解释了如何判断关联规则的有效性,并区分了强关联规则中的有效与无效情况。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 关联规则中,置信度和支持度的概念?

https://www.nowcoder.com/discuss/61907

1-1 支持度

表示项集(X,Y) 在总项集里出现的概率,公式为:support(X->Y)=P(X,Y)/P(l)=num(XUY)/num(l)

l 是总事务集,num() 表示求事务集里特定项集出现的次数。

1-2 置信度(confidence)

置信度表示先决条件X 发生的情况下,由关联规则X ->Y 推出Y 的概率,即在含有X的项集中,含有Y的可能性,公式为:

confidence(X->Y)=P(Y|X) =P(X,Y)/P(X)=P(XUY)/P(X)

1-3 提升度(Lift)

提升度表示含有X 的条件下,同时含有Y 的概率,与Y 总体发生的概率之比

Lift(X->Y)=P(Y|X)/P(Y)

茶叶->咖啡的支持度:即买了茶叶又买了咖啡

support(X->Y)=450/500=90%

茶叶->咖啡的置信度为:confidence(X->Y)=450/500=90%

茶叶-> 咖啡的提升度为:Lift(X->Y) =confidence(X->Y)/P(Y)=90%/((450+450)/1000)=90%/90%=1

由于提升度Lift(X->Y)=1 ,表示X 与Y 相互独立,即是否有X,对于Y 的出现无影响。也就是说,是否购买咖啡,与有没有购买茶叶无关联,即规则茶叶-> 咖啡 不成立,或者说关联很小,几乎没有,虽然它的支持度和置信度都高达90%,但它不是一条有效的关联规则。

满足最小支出度和最小置信度的规则,叫做 强关联规则,然而强关联规则里,也分有效的强关联规则和无效的强关联规则。

如果Lift(X->Y) >1, 则规则X->Y 是强有效的强关联规则

如果Lift(X-.y)<=1 ,则规则X->Y 是无效的强关联规则

Lift(X->Y) =1,表示X与Y 相互独立。

 

https://blog.youkuaiyun.com/sanqima/article/details/42746419

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值