频繁模式挖掘:概念、应用、挑战与算法
1. 频繁模式挖掘基础概念
频繁模式挖掘(Frequent Pattern Mining,FPM)是数据挖掘中的一项关键任务,旨在识别数据集中频繁出现的模式或项集。这些模式有助于发现不同领域大量数据之间的关联、相关性和结构,如市场篮子分析、网络挖掘、生物信息学和网络安全等。
1.1 市场篮子分析示例
通过购物车的可视化示例可以更好地理解市场篮子分析。假设有三个购物车,里面装满了从杂货店购买的各种物品,每个物品用一个盒子表示。经过检查发现,物品 A、Q 和 G 同时出现在三个购物车中,这表明它们经常一起被购买。基于此模式,如果有人购买了物品 A 和 Q,就可以推荐他们购买物品 G。
1.2 关键概念
| 概念 | 定义 | 示例 |
|---|---|---|
| 项集 | 一个或多个物品的集合 | 在超市场景中,项集可能是 {牛奶, 面包, 黄油} |
| 支持度 | 数据集中包含某个项集的交易比例或频率 | 若 1000 笔交易中有 100 笔包含 {牛奶, 面包},则该项集的支持度为 10% |
| 频繁项集 | 支持度大于或等于用户指定支持阈值的项集 | 根据具体应用需求设置阈值 |
超级会员免费看
订阅专栏 解锁全文
37

被折叠的 条评论
为什么被折叠?



