#2018-03-23 10:48:40 March Friday the 12 week, the 082 day SZ SSMR
【Python数据挖掘课程笔记】八.关联规则挖掘及Apriori实现购物推荐
1.关联规则挖掘概念及实现过程;
2.Apriori算法挖掘频繁项集;
3.Python实现关联规则挖掘及置信度、支持度计算。
一. 关联规则挖掘概念及实现过程
1.关联规则
关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,那么,其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。
典型案例:美国沃尔玛超市尿布和啤酒的故事
2.常见案例
3.置信度与支持度
度量一个规则是否够好?有两个量,置信度(Confidence)和支持度(Support),
(3) 支持度
支持度(Support)计算在所有的交易集中,既有A又有B的概率
(4) 置信度
置信度(confidence)表示了这条规则有多大程度上值得可信
(5) 最小支持度与频繁集
发现关联规则要求项集必须满足的最小支持阈值,称为项集的最小支持度(Minimum Support),记为supmin。支持度大于或等于supmin的项集称为频繁项集,简称频繁集,反之则称为非频繁集。通常k-项集如果满足supmin,称为k-频繁集,记作Lk。关联规则的最小置信度(Minimum Confidence)记为confmin,它表示关联规则需要满足的最低可靠性。
(6) 关联规则
(7) 强关联规则
如果规则R:X=>Y 满足 support(X=>Y) >= supmin 且 confidence(X=>Y)>=confmin,称关联规则X=>Y为强关联规则,否则称关联规则X=>Y为弱关联规则。
二. Apriori算法挖掘频繁项集
Apriori算法将发现关联规则的过程分为两个步骤:
1.通过
【Python数据挖掘课程笔记】八.关联规则挖掘及Apriori实现购物推荐
最新推荐文章于 2025-06-08 00:00:57 发布