轻松入门机器学习数据挖掘算法——关联分析(Apriori算法)

Apriori算法是一种用于关联分析的数据挖掘技术,旨在发现大规模数据集中项集之间的关联规则。通过确定最小支持度和置信度,算法能够找到频繁项集并生成强关联规则。在沃尔玛的购物篮分析案例中,啤酒和尿布的关联揭示了潜在的销售策略。Python中的apriori()函数可用于实际应用,生成包括支持度、置信度和提升度的关联规则。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

小故事:20世纪90年代,沃尔玛超市在对顾客的购物记录进行购物篮分析时,发现了一个奇怪的现象: “啤酒”和“尿布”两件看上去毫无关系的商品,经常出现在同一个购物篮中。通过关联分析,确实能发现事物之间一些令人意外的“关系”。依据这些“关系”,可以引导卖家调整营销策略,把关联程度较高的商品打包在一起,提高销量。或者针对买家已购买的产品,推荐与之相关的其他产品或信息,精准营销。

一、Apriori 算法可以做什么工作?

关联分析是一门分析技术,用于发现大量数据中,各组数据之间的联系。关联分析是探索数据之间联系的技术,而数据之间的联系,我们用关联规则来表示,表达式为:{X}→{Y}(X 和 Y 之间不存在相同项)。大多数的关联分析工作,主要任务就是生成频繁项集和关联规则,从而发现隐藏的关联关系。现实工作中的“项”(商品)成百上千,真实的“事务”(交易)数以万计,确认频繁项集合关联规则,提高计算效率可以使用Apriori算法。

二、Apriori 算法

Apriori是用于挖掘出数据背后的关联规则的一种算法,它的流程可分为两步:(1)确定最小支持度和置信度;(2)找出所有频繁项集和强关联规则。
Apriori 的算法主要依赖两个性质:
(1)一个项集如若是频繁的,那它的非空子集也一定是频繁的。假如购买{薯条,奶茶}的概率都很高,那购买{薯条}或{奶茶}的概率肯定也很高。
(2)一个项集如若是非频繁的,那包含该项集的项集也一定是非频繁的。假设购买{薯条}的次数少,那购买{薯条,奶茶}的次数肯定也少。
在 Apriori 算法出现之前,要找出所有的频繁项集,就得先枚举所有的项集,计算它们的支持度,然后和最小支持度(0.2)进行对比,筛选出频繁项集。

三、Python调用apriori()函数

Python 调用 apriori()函数
apriori(transactions, min_support, min_confidence, min_lift)
transactions:事务集合,值可以是嵌套列表或者Series对象
min_support:最小支持度,默认0.1
min_confidence:最小置信度,默认0
min_lift:最小提升度,默认为0

# 导入 apyori 模块下的 apriori() 函数
from apyori import apriori
# 创建4条快餐交易数据
orders = [['薯条', '可乐&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

The丶Star

谢谢支持与鼓励!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值