机器学习：聚类

最新推荐文章于 2024-07-26 14:36:07 发布

阿狸轰

最新推荐文章于 2024-07-26 14:36:07 发布

阅读量1.5k

点赞数 16

分类专栏：机器学习文章标签：机器学习聚类人工智能

本文链接：https://blog.youkuaiyun.com/Alaskan_Husky/article/details/134762007

版权

聚类是机器学习中的一种无监督学习方法，它旨在将数据集中的样本分成相似的组别或簇，使得同一组内的样本相互之间更为相似，而不同组之间的样本差异较大。以下是聚类的一些关键概念和方法：

K均值聚类（K-Means Clustering）是一种常见的无监督学习算法，用于将数据集中的样本划分成K个簇。这里简要介绍K均值聚类的基本原理和步骤：

K均值聚类的优点包括简单易实现、计算效率高，尤其对于大规模数据集较为适用。然而，它也有一些缺点，如对初始中心点的敏感性、对异常值的敏感性，以及对非球形簇结构的适应性较差。

在实际应用中，为了避免局部最优解，常常运行算法多次并选择最好的结果。同时，选择合适的簇数K也是关键，可以通过Elbow方法等方式进行估计。

层次聚类（Hierarchical Clustering）是一种无监督学习方法，它以树状结构（树状图或树状图谱）表示数据集中样本的聚类关系。层次聚类可以分为两种主要方法：凝聚层次聚类和分裂层次聚类。

凝聚层次聚类（Agglomerative Hierarchical Clustering）：
- 初始状态： 将每个数据点视为一个单独的簇。
- 合并过程： 通过迭代地合并最相似的簇，形成一个层次结构，直至所有数据点合并为一个大的簇。
- 相似度度量： 通过定义不同的相似度度量（如欧氏距离、曼哈顿距离等），确定簇的相似性。
分裂层次聚类（Divisive Hierarchical Clustering）：
- 初始状态： 将所有数据点视为一个大的簇。
- 分裂过程： 通过迭代地将最不相似的簇分裂为较小的簇，形成一个层次结构，直至每个数据点都成为一个独立的簇。
- 相似度度量： 同样使用不同的相似度度量确定簇的相似性。