基于群体智能的聚类算法综述
聚类问题概述
聚类是将包含 n 个数据点(每个数据点由 d 个属性定义)的数据集 X 划分成 k 个组,使得同一簇内的数据点彼此相似,不同簇的数据点彼此相异。聚类的目标是获得紧凑、连通且分离良好的簇。
- 紧凑性 :与簇内相似度相关,意味着同一簇内的点应彼此相似或接近。紧凑性度量分为基于代表点和基于边的度量。基于代表点的度量最小化每个簇成员与代表该簇的点(如质心、中心点等)之间的总相异度/距离,通常会得到球形簇;基于边的度量使用同一簇内数据点的成对距离,在处理任意形状的簇时更强大。
- 连通性 :指接近且相似的数据点之间的联系,给定数据点附近的点构成其邻居,该点及其邻居应分配到同一簇。
- 分离性 :意味着簇间相异度,即不同簇的数据点应相异。常用的分离性度量包括簇代表之间的总簇间距离、单链、平均链和完全链等。
聚类问题具有以下具有挑战性的特征:
1. 多目标 :聚类的目标虽可概念化,但难以同时组合和优化紧凑性、连通性和分离性这三个目标。目前没有普遍接受的适用于所有数据集的聚类目标或度量,数据集特征和应用领域决定了聚类中使用的目标函数的选择。
2. 簇数量未知 :在图像分割、生物信息学(基因聚类)和地理信息系统等实际应用中,簇的数量通常未知,需从数据集中提取。一些方法使用有效性指标来确定簇的数量,但没有一种有效性指标适用于所有数据集。也有研究假设簇的数量是已知的。
3.
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



