数据聚类的无监督学习方法解析
1. 聚类算法概述
在数据聚类中,选择合适的聚类算法并非易事,因为诸如距离函数、密度阈值或预期聚类数量等参数,都依赖于具体的数据集和结果的预期用途。通常,需要通过实验来选择最适合特定问题的聚类算法,除非有数学依据表明某一种聚类模型更优。需要注意的是,为某一种模型设计的算法,通常在包含截然不同模型的数据集上会失效。聚类分析不是一个自动的任务,而是一个涉及试错的知识发现或交互式多目标优化的迭代过程。往往需要调整数据预处理和模型参数,直到结果达到预期的特性。
常见的聚类模型包括基于划分的模型、层次聚类模型、基于密度的模型和基于图的模型。基于划分的模型用单个均值向量表示每个聚类;层次聚类基于距离连接性构建模型;密度模型将聚类定义为数据空间中相连的密集区域;基于图的模型可视为聚类的一种典型形式。
2. 基于划分的聚类算法
基于划分的聚类算法,也称为基于代表的算法,直接依赖于直观的距离(或相似度)概念对数据点进行聚类。通常使用一组划分代表来完成聚类,这些代表可以是聚类中数据点的函数(如均值),也可以从聚类中的现有数据点中选择。在数据集中发现高质量的聚类与发现高质量的代表集密切相关。一旦确定了代表,就可以使用距离函数将数据点分配给与其最接近的代表。
2.1 优化问题
通常,用户需要指定聚类的数量 $k$。基于划分的聚类是一个优化问题,即找到 $k$ 个聚类中心,并将对象分配到其最近的聚类中心,使得各数据点到聚类中心的平方距离之和最小。考虑一个包含 $N$ 个数据点 $x_1 \ldots x_N$ 的数据集 $D$,其位于 $d$ 维空间中。目标是确定 $k$ 个代表 $o_1 \ldots o_
超级会员免费看
订阅专栏 解锁全文
4128

被折叠的 条评论
为什么被折叠?



