基于群体智能的聚类算法与Kmeans类型算法的扩展
1. 聚类算法概述
聚类是许多自然应用中的基本操作,例如基因分析、图像处理、文本组织和社区检测等。它是一种将数据集划分为多个簇的方法,使得同一簇内的对象相似,不同簇内的对象相异。解决聚类问题的方法有很多种,包括划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法等。其中,kmeans类型的聚类算法是一种划分方法,在许多实际应用中被广泛使用。
2. kmeans类型算法的现状与问题
大多数现有的kmeans类型聚类算法仅考虑簇内对象的相似性,通过最小化簇的离散度来实现聚类。以基本kmeans算法为例,它在最小化离散度的过程中对所有选定的特征一视同仁。然而,在实际应用中,不同特征具有不同的判别能力。例如,在“London is the first city to have hosted the modern Games of three Olympiads”这句话中,关键词“London, Olympiads”在体育新闻中的判别信息比“city, modern”更多。
为了解决这个问题,一些研究人员通过各种加权方式扩展了基本kmeans算法。有些算法使用加权向量对特征进行加权,为每个特征计算一个代表其在整个数据集中判别能力的加权值。但在实际应用中,一个特征在不同簇中的判别能力可能不同,因此一些研究人员提出了矩阵加权kmeans类型算法,使用加权向量表示每个簇中特征的判别能力,如投影聚类、熵加权kmeans(EWkmean)、局部自适应聚类、属性加权聚类算法(AWA)和特征组加权kmeans等。
这些方法大多具有相同的特点:如果数据集中特征的离散度较小,则该特征会被赋予较大的权
基于群体智能的Kmeans扩展算法
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



