40、机器学习与数据挖掘算法解析-优快云博客

本文链接：https://blog.youkuaiyun.com/rice5/article/details/152098256

机器学习与数据挖掘算法解析

1. 事务数据库与模式挖掘

事务数据库可以用布尔特征来表示，其中每个特征 $X_i$ 代表某个物品在事务中是否存在（$X_i = 1$ 表示存在，$X_i = 0$ 表示不存在）。在这种情况下，模式是物品的组合，用物品集来表示。挖掘关联规则分为两个步骤：
1. 挖掘频繁模式 ：即支持度大于预定义阈值的模式。
2. 构建关联规则 ：从频繁模式中生成关联规则。

第一步是最耗时的，其复杂度取决于特征数量和观测数量。在布尔情况下，搜索空间的复杂度为 $2^d$，其中 $d$ 是布尔特征的数量。评估模式（例如计算其支持度）需要遍历整个数据库。

为了提高模式挖掘的效率，已经开发了许多算法，如 Eclat、FP - Growth 和 LCM 等。这些算法依赖于不同的数据库表示和搜索策略。物品集的封闭性是一个重要属性，因为频繁封闭物品集可以形成频繁物品集的紧凑表示，减少存储所需的内存。一些方法会找出所有频繁模式，而另一些则只搜索最大频繁物品集或封闭频繁物品集。

模式挖掘也被应用于处理包含结构化数据（如序列或图）的更复杂数据库。

1.1 关联规则挖掘步骤

graph LR
    A[事务数据库] --> B[挖掘频繁模式]
    B --> C[构建关联规则]
    C --> D[关联规则结果]

1.2 常见模式挖掘算法