无监督学习:聚类技术详解
1. 无监督学习与聚类概述
无监督学习与监督学习不同,它在假设没有因变量、输出或响应的情况下对观测数据进行建模。收集一组输入观测值,将其视为一组随机变量并直接进行分析,所有观测值的处理方式相同,可简单理解为不存在变量 Y。因此,包含 Y 作为类别的分类数据被称为有标签数据,而聚类数据则是无标签数据。聚类的任务就像是推测原本应该测量但未测量的变量 Y。
例如,假设有一组数据点集中在平面上以原点为中心、半径分别为 1、2 和 3 的三个圆上,自然会假设存在三个聚类,每个圆对应一个聚类。但如果有更多数据点积累,且它们都位于半径为 1 的圆内或半径为 2 和 3 的两个圆之间,就会推断出不同的聚类结构,即类别 2 和 3 合并为一个聚类,最终剩下两个聚类。
聚类是将无标签数据分组为子集的一系列方法,这些子集被认为反映了数据生成器的潜在结构。聚类技术多种多样,部分原因是其应用领域广泛,且在应用基于模型的推理技术之前,聚类通常是必要的预处理步骤。
聚类技术可分为以下三大类:
| 聚类技术类别 | 特点 |
| ---- | ---- |
| 层次聚类 | 生成嵌套的聚类序列,通常需要选择一个阈值来确定最佳聚类。嵌套方式可以是递减(从每个数据点作为单独的聚类开始合并,称为凝聚式)或递增(从整个数据集作为一个大聚类开始分解,称为分裂式)。 |
| 划分聚类 | 通常需要指定聚类的数量 K 和初始聚类,然后尝试优化数据点的初始分配。 |
| 贝叶斯聚类 | 尝试在数据的所有划分集合上生成后验分布,后验分布的众数即为最优聚类。 |
以下是聚类技术的分类流程图:
<
超级会员免费看
订阅专栏 解锁全文
27

被折叠的 条评论
为什么被折叠?



