26、项集树:用于数据挖掘的数据结构

项集树:高效数据挖掘结构

项集树:用于数据挖掘的数据结构

1. 引言

随着数据捕获技术的进步,信息系统中存储的数据量呈指数级增长。这促使研究人员寻找新的技术,以提取数据中隐含或隐藏的知识。关联挖掘是一个重要的研究领域,它由Agrawal等人引入,旨在发现属性值之间的依赖关系,也被称为市场篮子问题。

关联规则可以形式化定义为:设 $I = {i_1, i_2, \ldots, i_n}$ 是一个项集,$S = {s_1, s_2, \ldots, s_m}$ 是一个事务集,每个事务 $s_i \in S$ 是一个项的集合,即 $s_i \subseteq I$。关联规则表示为 $X \Rightarrow Y$,其中 $X, Y \subset I$ 且 $X \cap Y = \varnothing$,描述了两个项集 $X$ 和 $Y$ 之间的关系。

为了定义项集 $X$ 和 $Y$ 之间关系的强度,引入了几个度量,如支持度、置信度和兴趣度:
- 支持度 :$Support(X \Rightarrow Y) = \frac{P(X, Y)}{P(X)}$,即数据库中同时包含 $X$ 和 $Y$ 的事务的百分比。
- 置信度 :$Confidence(X \Rightarrow Y) = \frac{P(X, Y)}{P(X)}$,即在包含 $X$ 的事务中包含 $Y$ 的事务的百分比。
- 兴趣度 :$Interest(X \Rightarrow Y) = \frac{P(X, Y)}{P(X)P(Y)}$,表示统计独立性的测试。

已经提出了许

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值