几种常见的聚类方法

最新推荐文章于 2025-10-30 22:29:29 发布

原创最新推荐文章于 2025-10-30 22:29:29 发布 · 1.4w 阅读

CC 4.0 BY-SA版权

7 篇文章

订阅专栏

作为无监督学习的一个重要方法，聚类的思想就是把属性相似的样本归到一类。对于每一个数据点，我们可以把它归到一个特定的类，同时每个类之间的所有数据点在某种程度上有着共性，比如空间位置接近等特性。多用于数据挖掘、数据分析等一些领域。

下面简单介绍一下几种比较常见的聚类算法。

K-means聚类方法大家应该都听说过，在各种机器学习书籍教程中也是无监督学习部分非常经典的例子。其核心主要为两个部分：其一是K，K在这里代表类的数目，我们要把数据聚为多少类。其二是means，表示在每一次计算聚类中心的时候采取的是计算平均值。

我们假设样本总数为n，K-means聚类法可以简单表示为一下几个步骤：

在样本中随机选取K个点，作为每一类的中心点。
计算剩下 n-K 个样本点到每个聚类中心的距离（距离有很多种，假设这里采用欧式距离）。对于每一个样本点，将它归到和他距离最近的聚类中心所属的类。
重新计算每个聚类中心的位置：步骤 2 中得到的结果是 n 个点都有自己所属的类，将每一个类内的所有点取平均值（这里假设是二维空间，即对 x 和 y 坐标分别取平均），计算出新的聚类中心。
重复步骤 2 和 3 的操作，直到所有的聚类中心不再改变。

分析一下，算法本身的思想并不难。但是K值如何选择就见仁见智了，这里可以引入类内距离 J，每一类都会对应一个 J 值，其计算就是把类内所有点之间的距离累加起来。我们肯定希望 J 越小越好，因为小的类内间距代表这一类样本的相似程度更高（离得更近）。

如果 K 很小，则聚类可能不彻底，即隔着很远的两波点也被聚为一类，会使 J 变得很大；相反的，过大的 K 虽然会降低类内间距 J ，但有时候分得过细会对数据的泛化性造成损害，没有必要弄这么多类。因此 K 的选择应该是具体问题具体分析。

还有一个问题就是初始聚类中心的选择。不当的初始化会给算法的收敛带来更多的计算开销。试想一下，如果一开始把离得很近的 K 个点都设为聚类中心，那么算法的迭代次数会更多一些。

HAC也是一种比较经典的聚类方法，其主要思想是先把每一个样本点归为一类，再通过计算类间的距离，来对最相似或者距离最近的类进行归并，合成位一个新的类。反复循环，直到满足特定的迭代条件即可。

HAC的核心思想主要分为如下几个步骤：

将每个样本点都视作一类，一共有n个类。
计算所有类之间两两的类间距离（类间距离计算方式多种多样，可以取最近、最远、找重心等等，这里不做详述），然后把距离最近的两个类进行合并，组成一个新的更大的类。
重复步骤 2 中的操作，直到达到特定的迭代条件（例如当前类的数目是初始时的 10% ，即 90% 的类都得到了合并；最小的类间距离大于预先设定的阈值等等），算法结束。

和K-means算法中的 K 值选取一样，HAC中如何选择迭代的终止条件也是一个比较复杂的问题，需要根据一定的经验，并且具体问题具体分析。

这种方法的核心思想是先计算出聚类中心，再把所有的样本点按照就近原则，归到离自身最近的聚类中心所对应的类。最大最小是指在所有的最小距离中选取最大的。其主要的算法步骤如下：

随机选择一个点，作为第一个类的聚类中心 Z1。
选择与步骤 1 中距离最远的样本点，作为第二个类的聚类中心 Z2。
逐个计算每个点到所有聚类中心的距离，并把所有的最短的距离记录下来。
在这些最短距离中挑选最大的值，如果这个最大值大于 $λ∣∣Z1−Z2∣∣\lambda ||Z1-Z2||$ ，其中 $0≤λ≤10\leq \lambda \leq 1$ ,那么将这个最大距离所对应的另一个样本点作为新的聚类中心；否则整个算法结束。
重复步骤 3 和 4 的操作，直到 4 中不再出现新的聚类中心。
将所有的样本归到与他自身最近的聚类中心。