机器学习与数据挖掘算法解析
1. 事务数据库与模式挖掘
事务数据库可以用布尔特征来表示,其中每个特征 $X_i$ 代表某个物品在事务中是否存在($X_i = 1$ 表示存在,$X_i = 0$ 表示不存在)。在这种情况下,模式是物品的组合,用物品集来表示。挖掘关联规则分为两个步骤:
1. 挖掘频繁模式 :即支持度大于预定义阈值的模式。
2. 构建关联规则 :从频繁模式中生成关联规则。
第一步是最耗时的,其复杂度取决于特征数量和观测数量。在布尔情况下,搜索空间的复杂度为 $2^d$,其中 $d$ 是布尔特征的数量。评估模式(例如计算其支持度)需要遍历整个数据库。
为了提高模式挖掘的效率,已经开发了许多算法,如 Eclat、FP - Growth 和 LCM 等。这些算法依赖于不同的数据库表示和搜索策略。物品集的封闭性是一个重要属性,因为频繁封闭物品集可以形成频繁物品集的紧凑表示,减少存储所需的内存。一些方法会找出所有频繁模式,而另一些则只搜索最大频繁物品集或封闭频繁物品集。
模式挖掘也被应用于处理包含结构化数据(如序列或图)的更复杂数据库。
1.1 关联规则挖掘步骤
graph LR
A[事务数据库] --> B[挖掘频繁模式]
B --> C[构建关联规则]
C --> D[关联规则结果]
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



