K-means及其改进

最新推荐文章于 2024-09-01 13:38:47 发布

原创

最新推荐文章于 2024-09-01 13:38:47 发布 · 2.3k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#聚类

本文详细介绍了k-means聚类算法的流程、代码实现及缺点，包括其依赖初始中心选择的问题。接着讨论了k-means++的改进，通过优化初始中心选择以达到全局最优解。最后，对比了k-means与k-mediods，指出k-mediods对离群点影响的抵抗力更强，但时间复杂度较高，适合小规模数据。

一. k-means

1.算法流程

给定数据样本集 $D=\{x_1,x_2,...,x_m\}$ ,k-means欲将 $D$ 划分成K个簇 $C=\{c_1,c_2,...,c_k\}$ 并且簇之间没有交集。其目标是最小化平方误差和：
$\begin{aligned} E=\sum_{i=1}^k\sum_{x\in c_i}||x-u_i||_{2}^2 \end{aligned}$
其中 $ui=1∣ci∣∑x∈cixu_i=\cfrac{1}{|c_i|}\sum_{x\in c_i}x$ 是簇 $c_i$ 的均值向量（簇的形心）。从几何上理解就是k-means划分的每个簇中的样本都紧紧地挨着簇的形心。想要最小化平方误差和并不容易，找到它的最优解需要考虑所有可能的簇的划分，这是个NP难问题。所以，k-means采用了贪心的策略，通过迭代来找到局部最优解。算法流程如下：