正负关联规则挖掘:受限规则的方法
1. 引言
关联规则挖掘是数据挖掘中的一项重要任务,旨在发现事务数据库中项目之间的关系。它在推荐系统、诊断决策支持、电信、入侵检测等众多应用领域都有广泛的用途。传统的关联规则挖掘算法主要关注正关联规则,即事务中存在的项目之间的关联。然而,负关联规则,即考虑项目缺失情况的关联规则,也能提供有价值的信息。
例如,在市场篮子分析中,“购买可乐的顾客不购买百事可乐”这样的负关联规则可以帮助商家制定营销策略。但由于发现负关联规则的过程较为复杂,目前相关的研究和算法相对较少。
1.1 本文贡献
- 新算法 :设计了一种新的算法,用于生成正关联规则和负关联规则。该算法使用不同的兴趣度度量,并从不同的候选集生成关联规则。
- 自动阈值 :引入了相关系数的自动阈值调整机制,避免了手动调整参数的困难。通过逐步滑动阈值,找到强相关性的规则。
- 性能比较 :将该算法与其他现有的负关联规则挖掘算法进行比较,并讨论了它们的性能。
2. 基本概念和术语
2.1 关联规则
形式上,关联规则定义如下:设 $I$ 是一个项目集,$T$ 是一个事务集,每个事务 $T$ 是 $I$ 的一个子集,且每个事务都有一个唯一的标识符 $TID$。如果事务 $T$ 包含项目集 $X$,则称 $T$ 包含 $X$。关联规则是形如 $X \Rightarrow Y$ 的蕴含式,其中 $X, Y \subseteq I$ 且 $X \