机器学习之聚类详解

最新推荐文章于 2025-03-21 20:44:54 发布

程序员老钟

最新推荐文章于 2025-03-21 20:44:54 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习大数据算法文章标签：机器学习人工智能大数据算法聚类

本文链接：https://blog.youkuaiyun.com/Pizza_great/article/details/101351033

版权

大数据同时被 3 个专栏收录

12 篇文章

订阅专栏

机器学习

5 篇文章

订阅专栏

算法

5 篇文章

订阅专栏

聚类：试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”。通过这样的划分，每个簇可能对应于一些潜在的概念（类别），这些概念对聚类算法而言事先是未知的，聚类过程仅能自动形成簇结构，簇所对应的概念语义需要由使用者来把握和命名。

聚类既能作为一个单独过程，用于寻找数据内在的分布结构，也可以作为分类等其他学习任务的前驱过程。

1.基于距离的聚类算法

K-均值算法：k-means算法，也被称为k-平均或k-均值，是一种基于形心的技术，即使用簇的对象的值来代表该簇，簇的形心不一定是簇中的实际对象。k-均值算法的思想是以空间中k个点为中心进行聚类（可以不是数据点本身，也可以是），对靠近他们的对象进行归类，通过迭代的方法，逐次更新各个聚类中心的值，直到得到最好的聚类结果（基于距离的聚类算法，采用距离作为相似性的评价指标），k-均值可应用在图像分割上

步骤：

1、初始数据分布；

2、在空间中随机选择k个点作为中心点（从专业角度上来说不一定要求选择数据样本点本身，但是也有部分资料说明需要选取数据样本点作为初始中心点），k值通过传入参数指定；

3、第一轮迭代时分别计算每个样本到k个中心的的欧氏距离，样本离哪个中心点近就和其划为一类；

4、第一轮迭代完成后会得到k个数据，计算每类数据的均值，将均值作为新的中心点；

5、进入第二轮迭代：分别计算空间中每个数据到新的中心点的距离，再次聚成k类，然后重新求取新的中心点；

6、重复以上步骤，知道k个簇的质心点不再发生变化或误差平方和最小或者达到指定聚类次数。

说明：

起始点的选择对结果的影响很大；

算法的开展必须要有起点；

算法的核心在于从起点到最终中心点的逐步收敛。

优点：

k-means算法是解决聚类问题的经典算法，简单、快捷；

伸缩性良好（对新增对象可以继续聚类），并且针对大型数据集效率很高；

当簇接近高斯分布时效果更好。

缺点：

1、对离散点敏感，若簇中含有异常点将导致的值偏离严重（即对噪声和孤立点数据敏感）（对噪声敏感：可以使用k-中心点算法）；

2、算法开始时要求用户给出聚类簇的个数k，而对于k值的选择还没有很好的准则可循（解决方法是提供k值的近似范围，然后使用分析技术，通过比较由不同k得到的聚类结果，确定最佳的k值）；

3、初始随机选择簇中心点的好与坏将会对聚类结果的质量产生很大影响（在迭代受限的情况下，实践中，为了得到好的结果，通常以不同的初始簇中心，多次允许k-均值算法）；

4、只能在可以定义聚类的平均值的条件下才可以应用，即适合处理数值属性的数据，不适合处理标称属性的数据（可以使用k-众数算法）

5、聚类的最终结果也许会出现不平衡现象；

6、不适合发现那些非凸面形状的簇或者大小差别非常大的簇。

应用：

图像分割

K-中心点算法：k-中心点（k-medoids）不采用簇中对象的平均值作为参照点，而选用簇中位置最中心的对象，即中心点。k-中心点算法的思维是随机选择k个数据点（必须是数据点本身），对最靠近他们的对象进行归类，通过迭代的方法逐次更新各个聚类中心的值，直到得到最好的聚类结果（基于距离的聚类算法，采用距离作为相似性的评价指标）。k-中心点常用算法有：PAM、CLARA、CLARANS。

PAM：围绕中心点划分（Partitioning Around Medoids，PAM）算法是k-中心点聚类的一种流行实现，其聚类步骤如下：

1、初始数据分布；

2、随机选择k个数据点作为中心点；

3、分别计算每个数据点到k个中心点之间的距离，离哪个中心点近就和谁聚为一类，并计算聚类结果的代价，即每个簇中的全部数据点到该簇中心点的距离之和（即绝对误差之和）；

4、在各簇中遍历每一个非中心点o，计算簇中各个数据到点o的距离之和，如果簇各个数据到点o的距离之和小于一个中心点，则用o替换上一个中心点作为新的中心点；

5、按照新的k个中心点重新聚类；

6、重复以上步骤，直到k个簇的中心点不再发生变化或者达到指定次数。

PAM算法的优缺点：

优点：

当存在噪声和离群点时，k-中心点方法比k-均值更鲁棒，因为中心点不像均值那样容易受离群点或其他极端值影响。

缺点：

需要先确定簇数和中心点，簇数和中心点的选择对结果影响很大；

PAM在小型数据集上运行良好，但是不能很好的用于大数据集。因为遍历簇中每一个数据点求取新的中心点时算法的实际和复杂度都比较大。

CLARA：大型应用聚类（Clustering Large Applications，CLARA）算法是一种基于抽样的方法，目的是简化样本。

其主要思想是：

不考虑整个数据集合，选择实际数据的一小部分作为数据样本。

在样本上应用PAM算法，从样本中选择中心点：

（如果样本是以非常随机的方式选取的，它应当足以代表原来的数据集合）；

（进而，从中选出的代表对象（中心点）很可能与从整个数据集合中选出的非常近似）。

抽取数据集合的多个样本，对每个样本应用PAM算法，返回最好的聚类结果作为输出。

优点：可以降低算法的时间和复杂度，对大数据集十分有效；

缺点：CLARA的有效性依赖于样本的大小（CLARA的有效性依赖于样本的大小：PAM在给定的数据集上搜索k个最值中心点，而CLARA在数据集选取的样本上搜索k个最佳中心点。如果最佳的抽样中心点都远离最佳的k个中心点，则CLARA不可能发现好的聚类。如果一个对象是k个最佳中心点之一，但它在抽样时没有被选中，则CLARA将永远不能找到最佳聚类）。

CLARANS：基于随机搜索的聚类大型应用（Clustering Large Application based upon Randomized，CLARANS），可以在使用样本得到聚类的开销和有效性之间权衡。CLARANS算法的目的是简化计算。

主要策略如下：

1、在数据集中随机选择k个对象作为当前中心点；

2、随机地选择一个当前中心点x和一个不是当前中心点的对象y，如果y替换x能够改善绝对误差之和，则进行替换；

3、进行这种随机搜索n次，n步之和的中心点的集合被看做一个局部最优解；

4、重复以上随机过程m次，并返回最佳局部最优解作为最终的结果。

优点：降低了聚类的开销；

缺点：聚类的有效性很大程度上收到n和m取值的影响。