代表点聚类算法是一类通过选取数据集中的一部分数据点作为代表点(centroids, medoids, exemplars),并使用这些代表点对其余数据点进行划分的聚类方法。这类算法的主要目标是通过有限的代表点刻画数据分布,从而实现数据聚类。常见的代表点聚类算法包括 K-Means、K-Medoids 和 Affinity Propagation 等。
代表点聚类算法的特点
-
代表点的选取
通过选定若干代表点来描述数据集的结构,这些点可能是实际数据点(如 K-Medoids)或虚拟点(如 K-Means)。 -
聚类目标
将所有数据点分配到与其最接近的代表点,最小化某种距离度量(如欧几里得距离)。 -
应用场景
常用于需要快速处理大规模数据、分布规律清晰或已知簇数的场景。
常见算法及原理
1. K-Means 聚类
-
核心思想:
通过迭代优化,找到 k 个虚拟中心点(质心),使数据点到最近质心的距离之和最小化。 -
步骤