Coursea-吴恩达-machine learning学习笔记（十三）【week 8之Unsupervised Learning】

最新推荐文章于 2025-02-03 21:52:26 发布

原创最新推荐文章于 2025-02-03 21:52:26 发布 · 344 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#K均值算法

机器学习专栏收录该内容

17 篇文章

订阅专栏

本文详细介绍了K均值聚类算法的工作原理及其优化目标。包括如何随机初始化聚类中心，通过迭代更新聚类中心及分配数据点来降低失真代价函数。此外，还探讨了如何通过多次随机初始化来提高找到全局最优解的概率，并讨论了确定最佳聚类数目的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

监督学习：
这里写图片描述
训练集： $\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\}$
针对一组有标记的训练数据，提出一个适当的假设，找出决策边界，借此区分正负标记数据。

无监督学习：
这里写图片描述
训练集： $\{x^{(1)},x^{(2)},\cdots,x^{(m)}\}$
面对一组无标记的训练数据，数据之间不具有任何相关联的标记，将未标记的数据送入特定的算法，分析出数据的结构，例如聚类。

$K$ 均值( $K-means$ )算法是现在最为广泛使用的聚类算法。

有一些未标记的数据如下图所示，想将这些数据分成两个簇
这里写图片描述
首先随机选择两个点，称为聚类中心：

$K$ 均值算法是一个迭代方法，做两件事：

簇分配，即遍历所有的样本，依据每个点更接近哪个中心，来将数据点分配到不同的聚类中心，如下图：
移动聚类中心，将聚类中心移动到该类所有点的均值处，如下图：

循环以上两步，得到如下图结果：

当聚类中心不再变化时，均值算法收敛。
$K$ 均值算法接受两个输入：
1. 参数(表示聚类簇的个数)；
  - 训练集 $\{x^{(1)},x^{(2)},\cdots,x^{(m)}\}$ ， $x^{(i)}\in R^n$ 是个 $n$ 维向量。
算法说明：
随机初始化 $K$ 个聚类中心 $\mu_1,\mu_2,\cdots,\mu_K\in R^n$
$Repeat\{$
$\qquad\qquad for\ i=\ 1\ to\ m$
$\qquad\qquad\qquad c^{(i)}:=$ 距样本 $x^{(i)}$ 最近的聚类中心的索引( $1\sim K$ )
$\qquad\qquad\qquad$ 注： $\min\limits_{k}\lVert x^{(i)}-\mu_k\rVert\to c^{(i)}=k$
$\qquad\qquad for\ k=\ 1\ to\ K$
$\qquad\qquad\qquad \mu_k:=$ 分配到第 $k$ 个簇的所有点的平均值
$\qquad\qquad\qquad$ 例： $c^{(1)}=2,c^{(5)}=2,c^{(6)}=2,c^{(10)}=2$
$\qquad\qquad\qquad$ 则 $\mu_2={1 \over 4}[x^{(1)}+x^{(5)}+x^{(6)}+x^{(10)}]$
$\qquad\quad\}$
如果存在一个没有点分配给它的聚类中心，直接将该中心移除。

我们用 $\mu_{c^{(i)}}$ 表示样本 $x^{(i)}$ 被分配到的簇的聚类中心。
$K$ 均值算法的优化目标：
$J(c^{(1)},\cdots,c^{(m)},\mu_1,\cdots,\mu_K)={1 \over m}\sum\limits_{i=1}^m\lVert x^{(i)}-\mu_{c^{(i)}}\rVert^2$
$\min\limits_{c^{(1)},\cdots,c^{(m)}\\\mu_1,\cdots,\mu_K}J(c^{(1)},\cdots,c^{(m)},\mu_1,\cdots,\mu_K)$
上面这个代价函数也叫失真代价函数。

在 $K$ 均值算法中：
第一步
$for\ i=\ 1\ to\ m$
$\qquad c^{(i)}:=$ 距样本 $x^{(i)}$ 最近的聚类中心的索引( $1\sim K$ )
实际是在对代价函数进行关于参数 $c^{(1)},\cdots,c^{(m)}$ 的最小化，保持 $\mu_1,\cdots,\mu_K$ 不变。
第二步
$for\ k=\ 1\ to\ K$
$\qquad \mu_k:=$ 分配到第 $k$ 个簇的所有点的平均值
实际上是选择最小化代价函数的 $\mu_1,\cdots,\mu_K$ 。

随机初始化聚类中心的方法：

确保 $K\lt m$ ， $K$ 为类别数， $m$ 为训练样本数；
随机选取 $K$ 个训练样本；
令 $\mu_1,\cdots,\mu_K$ 等于这 $K$ 个训练样本， $\mu_1,\cdots,\mu_K$ 表示 $K$ 个聚类中心。

因为随机初始化的不同， $K$ 均值算法最终可能会得到不同的结果，只得到局部最优解。

假设存在数据如下图：
这里写图片描述
其全局最优解为：

由于随机初始化的不同，可能得到如下两种局部最优解：

如果想提高 $K$ 均值算法找到全局最优解的几率，能做的是尝试多次随机初始化，运行多次 $K$ 均值算法。
具体做法如下：
$for\ i=\ 1\ to\ 100$
$\{$
$\qquad$ 随机初始化 $K$ 均值；
$\qquad$ 运行 $K$ 均值算法，得到 $c^{(1)},\cdots,c^{(m)},\mu_1,\cdots,\mu_K$ ；
$\qquad$ 计算代价函数 $J(c^{(1)},\cdots,c^{(m)},\mu_1,\cdots,\mu_K)$
$\}$
选取 $J(c^{(1)},\cdots,c^{(m)},\mu_1,\cdots,\mu_K)$ 最小的聚类。