模糊关联规则的定义与度量
1. 模糊关联规则的定义
关联规则是数据挖掘领域中研究最深入的知识获取模型之一。它们最初由Agrawal、Imielinski和Swami在1993年引入,用于发现交易数据中项目之间的关联。关联规则关联了一组项目(称为“项集”)的存在,每个交易都是一个项目集。例如,“每个买面包的人都买牛奶”可以表示为面包→牛奶。
然而,传统关联规则在处理定量属性时遇到了挑战,因为它们需要对值进行聚类以减少粒度。为了解决这一问题,模糊关联规则应运而生。模糊关联规则通过在属性域上表示为模糊集的一组语言标签来减少粒度。例如,温度可以被描述为“冷”、“温”和“热”。这些规则对人类来说更易于理解,因为它们基于我们在对话和推理中使用的相同的语言术语。
模糊关联规则的定义
模糊关联规则的形式为:[ A \rightarrow B ]
其中,( A ) 和 ( B ) 是模糊集,表示条件和结果。例如:
- 如果温度是“冷”,则湿度是“高”
- 如果血糖水平是“高”,则体重是“重”
2. 模糊关联规则的度量
为了评估模糊关联规则的有效性和重要性,需要引入一些度量标准。以下是常用的度量方法:
支持度(Support)
支持度表示包含某条规则的前提和结果的事务占总事务的比例。公式如下:
[ \text{Support}(A \rightarrow B) = \frac{\text{count}(A \cap B)}{\text{total transactions}} ]