分类数据聚类:概念、挑战与算法解析
1. 分类属性与分类数据聚类的定义
分类属性(Categorical Attribute),也称为定性属性(Qualitative attribute),其值可以被划分到不同的类别中。这些类别中的值是离散的,且不存在内在的可比性,没有单一的排序或距离函数,也无法进行有语义意义的从分类值到数值的映射。
数据聚类是将一组对象划分为多个组的问题,使得同一组内的对象相似,不同组的对象相异。而分类数据聚类则是针对由分类属性定义的数据对象进行的聚类操作。
2. 聚类的动机与背景
聚类在实际应用中具有重要意义,几十年来一直是多个领域的研究焦点。随着数据量的不断增长,对数据进行挖掘和理解变得至关重要,聚类在这一过程中发挥着关键作用。近年来,为了处理大量数据并产生高质量的结果,人们开发了许多新的聚类算法。
大多数文献中的聚类算法主要关注基于数值属性定义的数据集。在这类数据集中,可以使用基于几何类比的成熟度量来定义对象之间的相似性(或相异性),并据此定义聚类的质量度量,进而将聚类问题转化为优化质量度量的问题。
然而,存在许多数据集,其数据对象是由既非数值也无内在可比性的属性定义的,我们将这类数据集称为分类数据集。例如,电影数据库中的“导演”“演员/女演员”和“类型”等属性,很难直接确定“科波拉”和“斯科塞斯”之间的距离或相似度,以及“《迷魂记》”和“《哈维》”这两个元组之间的关系。
分类数据的例子还有很多,如产品数据(品牌、型号、颜色等属性)、人口普查数据(婚姻状况、地址、职业等属性)和生态数据(花瓣形状、栖息地类型等属性)。由于分类数据对象之间缺乏内在的距离或相似度度量,使得分类
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



