Apriori算法介绍
相关性分析擅长寻找二组或多组线性变量之间的数据表现,但如果分析的多组事务不属于线性变量,而属于布尔型事务项集,就需要采取关联分析法,最典型算法就是购物篮分析。
购物篮分析算法有很多,最著名的是Apriori算法。
Apriori算法是由Agrawal和R.Srikant于1994年提出来的,是一种关联分析经典算法,至今依然是数据分析领域十大明星算法之一,可见其功能之强大。
Apriori名称来自于拉丁语,也有人写成A-priori,意思是“来自以前”,指的是根据过去频繁发生项目集合的先验知识,预测后续的事务关联关系。
Aprori算法主要用于关联规则数据挖掘,因此也被称为ARM算法(Association Rule Ming algorithms)。
Apriori算法用于寻找频繁项目集合,因此也被称为频繁模式算法(Frequent Pattern Algorithms),此处的频繁项目集合有二个含义:首先分析对象必须是频繁出现的事务项目集合(简称项集);其次频繁出现的项集预示着事物之间存在着关联关系,具体来说,Apriori算法采取了二阶段方法(Two-Phase Methodology):
第一阶段:找到频繁项集(Finding frequent itemsets),比如AB是ABCD、AB、ABD等项目的频繁项集 。
第二阶段:根据频繁项集生成关联规则(Generating association rules),比如A=>B。
Apriori算法来自于零售超市业态,目前已经应用到银行、保险、市场营销等不
经典购物篮分析--Apriori算法解析(一)
最新推荐文章于 2024-11-30 23:16:48 发布