机器学习中的聚类、降维与深度学习基础
1. 聚类算法
聚类算法是机器学习中用于将数据集中的样本划分为不同组或类别的重要方法。常见的聚类算法有K-means和层次聚类。
1.1 K-means聚类
在绘制K-means算法的聚类标签和聚类中心时,相关代码应在同一个笔记本中执行。K-means算法通过预先指定聚类的数量K,将数据集划分为K个不同的簇。
1.2 层次聚类
层次聚类是另一种聚类算法,它不需要在运行算法前预先假设数据集中的聚类数量。层次聚类主要有两种技术:
- 自底向上(凝聚式) :初始时,每个数据点都被指定为一个单独的聚类,然后根据某种距离度量确定的同质性,迭代地合并聚类。
- 自顶向下(分裂式) :从一个包含所有数据点的聚类开始,随后将其分裂成同质的子组。
层次聚类会创建一个树状的分区表示,称为树状图(dendrogram)。树状图类似于二叉树,根在顶部,叶子在底部,叶子代表数据样本。
聚类的形成是通过计算每对数据点之间的接近度,最常用的接近度度量是欧几里得距离。从树状图的叶子开始,迭代地合并在多维向量空间中彼此更接近的数据点,直到所有同质点都被放入一个组或聚类中。
在层次聚类中,用于评估两个聚类之间差异的概念称为相异度,通过不同的链接方式(linkage)来计算。主要有以下四种链接方式:
| 链接方式 | 描述 |
| — | — |
| 质心链接(centroid) | 使用聚类的几何质心计算两个聚类之间的相异度 |
| 完全
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



