数据挖掘算法学习之Apriori算法

Apriori算法是一种用于发现数据集中的频繁项集和关联规则的算法。它基于一个性质:频繁项集的所有非空子集也必须是频繁的。算法包括连接步和剪枝步,通过连接项集生成候选集,并通过扫描事务计算支持度以确定频繁项集,最终生成满足最小支持度的关联规则。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

频繁模式:

        频繁出现在数据集中的模式

        譬如,一个商场一天出售的商品(大米,油,等)是一个数据集。频繁模式是一个子序列,如牙膏和牙刷总是在一起出现,则课看做一个频繁模式。


关联规则:

        频繁模式可以使用关联规则表示,如:

        牙刷=>牙膏

        表示一个人买了牙刷后很可能买牙膏。


频繁项集:   

    项的集合称为项集

    包含k个项的项集称为k项集

    项集出现的频数是包含项的事务数,称为支持度计数

    如果一个项集的支持度计数大于预定义的最小支持度计数,则称该项集为频繁项集


Apriori算法就是从数据集中找出所有的频繁项集,再产生所有的关联规则,计算其置信度,从而挖掘出需要的关联模式。

       在介绍算法前先明确一个性质:任一频繁项集的所有非空子集也必须是频繁的。因为假如P(I)< 最小支持度阈值,当有元素A添加到I中时,结果项集(AI)不可能比I出现次数更多。因此A

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值