基础篇
本部分介绍关联分析的基础形式,主要以购物篮数据为依托,给出关联分析的基本概念。
一.基本概念
1.项,项集,事务
关联分析的基础形式和购物篮数据密切相关,所谓的购物篮数据如同下表:
顾客编号 购买商品
1 {苹果,碗}
2 {面包,牛奶}
其主要目的是研究顾客购买的商品之间的关系,例如研究是否多数顾客会同时购买牛奶和面包,这样有助于对商品进行组合促销。通常情况下, 顾客购买的商品称为 项 ,比如面包是一个项,牛奶也是一个项。将项合并起来组成 项集 ,比如{牛奶,面包}.我们称每个顾客购买的所有商品为 事务 。比如甲买了牛奶,面包,果汁,那么事务就是:{牛奶,面包,果汁}。
2.置信度,支持度
关联分析的一个主要目的就是发现关联规则,所谓关联规则就是形如 X→Y 的蕴含表达式,其中X和Y就是不相交项集,分别称为规则前件和规则后件。它的意义在于如果我们知道了X,那么Y就有可能发生。但是如何度量这种可能性,换句话说这个关联规则的强度有多大?我们有两个指标来度量,这便是 支持度s 和 置信度c 。支持度表明了 X 和
其定义如下:
1. s(X→Y)=σ(X⋃Y)N
2. c(X→Y)=σ(X⋃Y)σ(X)
其中 σ(.) 表示计数函数,N表示事务的个数.
二.规则挖掘方法
给出所有顾客购买的所有商品,也就是所有项,我们可以形成的规则数为:
R=3d−2d+1+1 ,其中
关联分析(从基础到高级)
最新推荐文章于 2024-02-24 16:37:11 发布