请和我一起学习机器学习算法(k-means)

最新推荐文章于 2025-12-29 20:13:14 发布

原创最新推荐文章于 2025-12-29 20:13:14 发布 · 216 阅读

CC 4.0 BY-SA版权

文章标签：

11 篇文章

订阅专栏

本文深入探讨了K-means聚类算法的概念与流程，包括其随机性和无监督特性。介绍了算法的具体步骤，从初始化中心点到迭代更新直至收敛。同时，讨论了算法存在的问题，如对初始中心点敏感及计算效率低下，并提出了k-means++和elkank-means等改进方案。

请和我一起学习机器学习算法之k-means

k-means 是一种聚类算法，具有随机，无监督的特点。也叫k中心值聚类。其中的k，表示的是要分成类别的数量，也就是说你最终要分成几堆。

k-means 是一通过距离情况优化中心的策略来实现聚类。具有一定的随机性。

算法步骤如下：

算法输入：训练数据 $X=\{x_1,x_2,...,x_m\}$ ，K(想聚类的数目)

随机在训练数据中选取K个值 $K_0=\{x_{k_0}^{1},x_{k_0}^{2},..,x_{k_0}^k\}$ ,作为中心。
分别计算样本数据X中所有的样本到这K个中心的距离，并将计算样本标记为距离k个中心最小的中心类别。所有样本标记为1~k中的某一类。
根据#2中的标记，对标记为中心进行更新( $K_0 到 K_1$ )。更新方式为：
距离 $x_{k_0}^1$ 最近的所有样本, 也就是标记为1的所有样本，取均值更新 $x_{k_0}^1$ 为 $x_{k_1}^1$
距离 $x_{k_0}^2$ 最近的所有样本, 也就是标记为2的所有样本，取均值更新 $x_{k_0}^2$ 为 $x_{k_1}^2$
… …
距离 $x_{k_0}^k$ 最近的所有样本, 也就是标记为k的所有样本，取均值更新 $x_{k_0}^k$ 为 $x_{k_1}^k$
由此，我们就得到一个新得中心点 $K_1=\{x_{k_1}^{1},x_{k_1}^{2},..,x_{k_1}^k\}$ ,
用新得中心代替原来得中心，重复#2,#3直到中心不变或者变化很小为止. 假设我们一共计算j次，我们得到最终的中心 $K_j=\{x_{k_j}^{1},x_{k_j}^{2},..,x_{k_j}^k\}$
我们根据最终的中心执行#2 则得到的 K 个分类为我们最终的聚类结果

明显地，k-means 的结果和初始随机的中心非常相关，极端的情况下，如果两个样本完全一样，则会出现无法分出K类的问题。
针对初始中心选择的问题，提出了k-means++

k-means++
k-means++, 与k-means不同的地方就是中心点的选择。相比于k-means一次性随机选择K个中心点。k-means++ 的中心点是逐个选择：先随意选择一个样本点作为一个中心，而后计算所有样本到中心的距离，距离大的样本具有较大的概率选择为下一个中心，根据这样中心选择的概率调整，一次获得K个中心。可以一定程度上优化中心点选择的问题。

除了初始中心随机的问题，还有一个就是在计算的过程中有大量的距离计算，严重影响了计算效率，为此elkan k-means 应运而生。