聚类算法:原理、应用与实践
1. 聚类简介
在许多模式识别问题中,我们之前处理的是有监督的情况,即每个训练模式的类别标签是已知的。但在聚类问题中,我们面临的是无监督的情况,没有这些类别标签信息。聚类的目标是将可用的模式划分为“合理”的组(簇),以提取模式之间相似性或差异性的有用信息。
2. 基本概念与定义
- 模式表示 :每个训练模式由一组 $l$ 个特征表示,形成一个 $l$ 维向量 $x = [x(1),…,x(l)]^T$。因此,每个训练模式对应于 $l$ 维空间中的一个点(向量)。
- 聚类定义 :给定一组数据向量 $X = {x_1,…,x_N}$,将它们分组,使得“更相似”的向量在同一簇中,“不太相似”的向量在不同簇中。包含这些簇的集合 $\Re$ 称为 $X$ 的一个聚类。
例如,考虑一些数据向量,可能有不同的聚类方式,如 $\Re_1 = { {x_1, x_2},{x_3, x_4},{x_5, x_6, x_7}}$ 和 $\Re_2 = { {x_1, x_2, x_3, x_4},{x_5, x_6, x_7}}$ 都是合理的聚类,因为彼此靠近的向量被包含在同一簇中。但没有额外的数据信息来指示最终应选择哪一个,通常在处理聚类问题时,最好咨询应用领域的专家。
- 聚类的特点
- 定义的模糊性 :聚类没有严格的定义,因为缺乏外部信息(类别标签),“相似
超级会员免费看
订阅专栏 解锁全文

10万+

被折叠的 条评论
为什么被折叠?



