频繁模式挖掘:原理、算法与应用
1. 引言
频繁模式挖掘旨在找出数据库中项目之间的关系。给定一个包含交易 $T_1 \cdots T_N$ 的数据库 $D$,需要确定所有在至少 $s$ 比例的交易中出现的模式 $P$,这里的 $s$ 被称为最小支持度,它可以用绝对数量或数据库中交易总数的比例来表示。每个交易 $T_i$ 可以看作是一个稀疏二进制向量,或者是一组代表被实例化为 1 的二进制属性标识符的离散值。
这个问题最初是在市场篮子数据的背景下提出的,目的是找出经常一起购买的商品组。此后,它被应用于数据挖掘、网络日志挖掘、序列模式挖掘和软件错误分析等众多领域。
与频繁模式挖掘密切相关的是关联规则挖掘。关联规则可以被视为从频繁模式派生出来的“第二阶段”输出。对于项目集 $U$ 和 $V$,规则 $U \Rightarrow V$ 在最小支持度 $s$ 和最小置信度 $c$ 下被视为关联规则,需满足两个条件:一是 $U \cup V$ 是频繁模式;二是 $U \cup V$ 的支持度与 $U$ 的支持度之比至少为 $c$。由于找出频繁模式通常是计算上更具挑战性的步骤,大部分研究都集中在这一步。不过,在第二阶段也会出现一些计算和建模问题,特别是在频繁模式挖掘用于分类等其他数据挖掘问题时。
另一个相关问题是序列模式挖掘,它考虑了交易中的顺序。在许多场景中,如客户购买行为,时间顺序是很自然的,因此需要确定相关且频繁的项目序列。
频繁模式挖掘的重要应用示例包括:
- 客户交易分析 :确定客户购买行为的频繁模式,用于货架陈列或推荐决策。
- 其他数据挖掘问题
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



