经典购物篮分析--Apriori算法解析(一)

Apriori算法是经典的关联分析法,常用于购物篮分析。该算法通过两阶段找到频繁项集并生成关联规则,如在零售数据中发现"啤酒"与"尿布"的关联。支持度和置信度是评估关联规则的重要指标,而提升度则衡量了两个事务的相关性。Apriori算法在零售业有广泛应用,但目前其发展有所停滞。

Apriori算法介绍
相关性分析擅长寻找二组或多组线性变量之间的数据表现,但如果分析的多组事务不属于线性变量,而属于布尔型事务项集,就需要采取关联分析法,最典型算法就是购物篮分析。
购物篮分析算法有很多,最著名的是Apriori算法。
Apriori算法是由Agrawal和R.Srikant于1994年提出来的,是一种关联分析经典算法,至今依然是数据分析领域十大明星算法之一,可见其功能之强大。
Apriori名称来自于拉丁语,也有人写成A-priori,意思是“来自以前”,指的是根据过去频繁发生项目集合的先验知识,预测后续的事务关联关系。
Aprori算法主要用于关联规则数据挖掘,因此也被称为ARM算法(Association Rule Ming algorithms)。
Apriori算法用于寻找频繁项目集合,因此也被称为频繁模式算法(Frequent Pattern Algorithms),此处的频繁项目集合有二个含义:首先分析对象必须是频繁出现的事务项目集合(简称项集);其次频繁出现的项集预示着事物之间存在着关联关系,具体来说,Apriori算法采取了二阶段方法(Two-Phase Methodology):
第一阶段:找到频繁项集(Finding frequent itemsets),比如AB是ABCD、AB、ABD等项目的频繁项集 。
第二阶段:根据频繁项集生成关联规则(Generating association rules),比如A=>B。
Apriori算法来自于零售超市业态,目前已经应用到银行、保险、市场营销等不同领域,并获得了巨大的成功。
但是令人遗憾的是,当前Apriori算法在零售业的应用却处于停滞状况。
Apriori算法为沃尔玛、亚马逊等国际零售巨头的营销分析提供了新思路,使这些巨头们获得了巨大的成功。
为什么Apriori算法在零售业处于停滞状态?我们在后面会详细介绍。

一、Apriori算法的基本思路
我们以超市的购物篮为例,介绍Apriori算法的基本思路及指标体系。
假定有如下五个购物篮,购物篮数据已经按照Apriori算法的要求进行了数据预处理,购物篮及其中的商品构成如下:
购物篮

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值