数据挖掘中的概念聚类与模型评估
1. 聚类概述
聚类也被称为无监督分类,因为事先并不知道类标签。传统的聚类方法仅能基于合理的相似性度量找出相似的组,但无法明确相似性的知识。例如,树状图中的层次结构能展示不同子组和超组之间的相似关系,却不能描述使它们相似的原因。
目前已有的聚类算法大多是为基于数值属性的表示而开发的。近年来,也有研究致力于开发能处理一阶表示和分类属性的 K - 均值算法。
2. 概念聚类
2.1 概念聚类简介
经典的聚类方法只是创建聚类,却不解释为何要建立某个聚类。而概念聚类方法不仅能构建聚类,还能解释一组对象为何能构成一个聚类。它是一种通过观察进行学习的方式,也是以可理解的方式总结数据的途径。与层次聚类方法不同,概念聚类方法构建分类层次结构时,并非仅仅基于合并两个组,其算法特性足够灵活,能动态地使层次结构适应数据,允许将新实例逐步融入现有层次结构,并根据新实例更新该层次结构。
已知的概念聚类算法有 Cluster/S、Cobweb、UNIMEM、classit 和图的概念聚类等。
2.2 概念层次结构与概念描述
概念层次结构是一个有向图,其中根节点代表所有输入实例的集合,终端节点代表单个实例,内部节点代表与该节点相连的实例集合,并表示一个超概念。超概念可以用该实例集合的广义表示来表示,如原型、中位数或用户选择的实例。
在概念层次结构中,一个概念 C(称为类)由一个抽象的概念描述和一个指向每个子概念的指针列表 M(C) = {C1, C2, …, Ci, …, Cn} 表示,其中 Ci 是子概念,称为概念 C 的子类。
概念聚类与模型评估解析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



