基本概念
- 频繁模式是频繁地出现在数据集中的模式(如项集、子序列或子结构)。频繁模式挖掘给定数据集中反复出现的联系。
- “购物篮”例子,想象全域是商店中商品的集合,每种商品有一个布尔变量,表示该商品是否出现。则每个购物篮可以用一个布尔向量表示。分析布尔向量,得到反映商品频繁关联或同时购买的购买模式。这些模式可用关联规则来表示。如computer-->antivirus_software[support=2%;confidence=60%]。规则的支持度和置信度是规则兴趣度的两种度量,分别反映所发现规则的有用性和确定性。如果关联规则满足最小支持度阈值和最小置信度阈值,则它是有趣的。
- 设A、B是两个项集(如商品的集合),关联规则A-->B,支持度s是事务中包含A U B(即集合A和B的并或A和B二者)的百分比,概率P(A U B)。置信度c是事务中包含A的事务同时也包含B事务的百分比,P(B | A)。
- 同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。
- 项集的出现频度(简称项集的频度、支持度计数、计数)是包含项集(如2项集{computer,antivirus_software})的事务数。关联规则中的项集支持度support有时称为