基于模拟蜂群算法的聚类分类数据无监督规则集提取实证研究
1. 引言
在数据分析领域,从聚类分类数据中提取规则集是一个具有重要实际意义的问题。例如,分析销售数据以预测消费者购买行为、分析电信数据以检测可能的恐怖活动、分析基因 DNA 序列以发现生物系统调控信息等。
假设有一组聚类分类数据,包含颜色、大小和温度三个属性。颜色属性有红、蓝、绿、黄四种取值;大小属性有小、中、大三种取值;温度属性有热、冷、暖三种取值。每个由颜色、大小和温度组成的三元组被分配到三个聚类(c0、c1、c2)中的一个,形成如下小数据集:
| 颜色 | 大小 | 温度 | 聚类 ID |
| ---- | ---- | ---- | ---- |
| 红色 | 小 | 热 | c0 |
| 红色 | 小 | 冷 | c0 |
| 蓝色 | 中 | 热 | c1 |
| 绿色 | 大 | 冷 | c1 |
| 黄色 | 大 | 暖 | c2 |
| 蓝色 | 小 | 热 | c2 |
对于这个数据集,不同的人可能得出不同的规则集。例如,一个规则集可能是:
- (Red, Small) => c0
- (Blue, Medium) => c1
- (Green) => c1
- (Yellow) => c2
- (Blue, Small) => c2
这个规则集能正确分类数据集中的所有六个元组,但规则数量(五个)几乎与数据元组数量相同。另一个人可能愿意牺牲一定的分类覆盖率或规则集准确性来减少规则集大小,得出如下规则集:
- (Re
超级会员免费看
订阅专栏 解锁全文
11

被折叠的 条评论
为什么被折叠?



