挖掘频繁模、关联和相关性(3)

本文探讨了关联规则分析中的局限性,指出强规则可能不总是有趣或有用的,并提出了通过引入相关性度量来增强传统支持度-置信度框架的方法。文章详细解释了提升度的概念,展示了如何通过计算来确定项集间的正相关、负相关或独立关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

模式评估方法

强规则不一定是有趣的

这里写图片描述

上面的例子虽然是强规则,然而,是一种规则误导,因为购买录像的概率是75%,比66%还高。事实上,计算机游戏和录像是负相关的,因为买一种实际上降低了买另一种的可能性。

从关联分析到相关分析

支持度和置信度度量不足以过滤掉无趣的关联规则。为了处理这个问题,可以使用相关性度量来扩充关联规则的支持度-置信度框架。这导致如下形式的相关规则(correlation rule)

AB[support,confidence,correlation]

也就是说,相关规则不仅用支持度和置信度度量,而且还用项集A和B之间的相关性度量。

提升度:项集A的出现独立于项集B的出现,如果P(AB)=P(A)P(B);否则,作为事件,项集A和B是依赖的(dependent)和相关的(correlated).

lift(A,B)=P(AB)P(A)P(B)=P(BA)P(B)=conf(AB)sup(B)

如果上式值小于1,则A的出现与B的出现是负相关的,如果大于1是正相关的,如果等于1,他们之间是独立的。

χ2 进行相关分析

### 关联规则挖掘相关性分析的区别及联系 #### 定义比较 关联规则挖掘是一种数据挖掘技术,其目标是从大规的数据集中提取有意义的规则,这些规则描述了某些项集之间的隐含关系。例如,“如果购买牛奶面包,则可能也会购买黄油”[^3]。 相比之下,相关性分析主要关注两个或多个变量之间的统计依赖程度。它通过计算诸如皮尔逊相关系数之类的度量来量化变量间的线性关系强度。相关性分析的结果通常是数值型的相关系数,而关联规则挖掘则生成的是逻辑规则形式的关系表达。 #### 方法论差异 在方法上,关联规则挖掘利用特定算法(如Apriori算法)寻找满足最小支持度支持置信度阈值的频繁项集及其衍生规则[^2]。这种方法强调事务中的共现现象以及由此产生的因果暗示。 然而,相关性分析侧重于测量连续型或者离散型随机变量间是否存在显著性的相互影响,并不涉及具体业务场景下的解释型构建过程。因此,在处理分类属性方面,传统意义上的相关性检验不如基于频率计数原理设计出来的关联规则有效果明显[^1]。 #### 应用领域对比 从应用角度来看,关联规则挖掘被广泛用于零售业的商品摆放策略制定、电子商务平台上的个性化推荐服务等方面;而在金融风险评估、医学诊断预测等领域内,更多候会采用多元回归分析或者其他高级建手段来进行深入探索其中隐藏规律的候可能会涉及到简单初步的相关性探讨作为前期准备工作的一部分而已。 #### 联系之处 尽管两者存在上述诸多方面的不同点,但它们都属于数据分析范畴之内,都是为了揭示数据背后所蕴含的知识信息。而且,在实际项目操作过程中,往往先做基本描述统计加上两两字段之间是否有较强正负向关联趋势判断之后再决定是否有必要进一步实施复杂的关联式探寻工作流程。 ```python # 示例代码展示如何计算两个列表元素之间的皮尔森相关系数 import numpy as np def pearson_correlation(list_x, list_y): x = np.array(list_x) y = np.array(list_y) mean_x = np.mean(x) mean_y = np.mean(y) covariance = ((x - mean_x) * (y - mean_y)).sum() std_deviation_product = np.std(x) * np.std(y) return covariance / std_deviation_product if std_deviation_product != 0 else None example_list_1 = [1, 2, 3, 4, 5] example_list_2 = [5, 4, 3, 2, 1] print(pearson_correlation(example_list_1, example_list_2)) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值