《机器学习实战》第11章学习笔记(Apriori算法 关联分析)

一、关联分析

从大规模数据集中寻找物品间的隐含关系被称作关联分析( association analysis ) 或者关联规则学习(association rule learning)。

关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。频繁项集(frequent item sets)是经常出现在一块的物品的集合,关联规则 ( association rules )暗示两种物品之间可能存在很强的关系。

频繁项集是指那些经常出现在一起的物品集合。一个项集的支持度(support)被定义为数据集中包含该项集的记录所占的比例。支持度是针对项集来说的,因此可以定义一个最小支持度,而只保留满足最小支持度的项集。

可信度或置信度(confidence)是针对一条诸如{尿布} --->{葡萄酒}的关联规则来定义的。这条规则的可信度被定义为“ 支持度({尿布, 葡萄酒})/支持度({尿布})"。

二、Apriori原理

为了降低所需的计算时间,研究人员发现一种所谓的Apriori原理。Apriori原理可以帮我们减少可能感兴趣的项集。这意味着如果{0,1}是频繁的,那么{0} 、{1}也一定是频繁的。这个原理直观上并没有什么帮助,但是如果反过来看就有用了,也就是说如果一个项集是非频繁集,那么它的所有超集也是非频繁的,如下图所示。

Apriori 原理是说如果某个项集是频繁的,那么它的所有子集也是频繁的。 


三、利用Apriori算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值