机器学习： K-means 聚类

最新推荐文章于 2024-08-11 16:00:02 发布

原创最新推荐文章于 2024-08-11 16:00:02 发布 · 701 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

机器学习专栏收录该内容

114 篇文章

订阅专栏

本文详细介绍了无监督学习中常用的K-means聚类算法原理。通过数学公式推导了如何通过迭代寻找最佳聚类中心的过程，并给出了具体实现步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天介绍机器学习里常见的一种无监督聚类算法，K-means。我们先来考虑在一个高维空间的一组数据集， $S = \{ \mathbf{x}_1, \mathbf{x}_2, ... , \mathbf{x}_N \}$ ， $\mathbf{x} \in \mathbb{R}^D$ ，假设我们需要把这组数据聚集长 $K$ 类，不失一般性，我们可以假设每个聚好的类都有一个中心 $\mathbf{ \mu}_k$ ，如果聚类完成的话，那么数据集中的每一个点 $\mathbf{x}$ 会有一个中心 $\mathbf{ \mu}_k$ 离这个点的距离最近。可以构造一个变量 $r_{nk} = \{ 0, 1 \}$ 表示变量 $\mathbf{x}$ 离第 $k$ 类最近 $r_{nk} = 1$ ，离其他的类更远 $r_{nj} = 0, j \neq k$ ，那么我们可以定义如下的目标函数：

J = \sum n = 1 N \sum k = 1 K r n k | | x n - μ k | | 2

$J = \sum_{n=1}^{N} \sum_{k=1}^{K} r_{nk} || \mathbf{x}_n - \mathbf{ \mu}_k ||^2$

这个目标函数就是要求 $r_{nk} , \mathbf{ \mu}_k$ ，使得目标函数 $J$ 的值最小。

为了解决上面这个问题，因为要同时求 $r_{nk} , \mathbf{ \mu}_k$ 两个变量，所以我们会采取分步迭代的方法，当我们求 $r_{nk}$ 可以让 $\mathbf{\mu}_k$ 固定不动，当我们求 $\mathbf{\mu}_k$ 的时候，可以让 $r_{nk}$ 固定不动。

很显然，当我们求 $r_{nk}$ ，只有比较每一个 $\mathbf{x}_n$ 与 $\mathbf{\mu}_k$ 的距离，选择距离最近的一个类即可:

r n k = 1 if = arg m i n j | | x n - μ j | | 2

$r_{nk} = 1 \quad \text{if} = \arg min_j || \mathbf{x}_n - \mathbf{ \mu}_j ||^2$

而求 $\mathbf{\mu}_k$ 的时候，我们可以让 $r_{nk}$ 固定不动，对目标函数 $J$ 求导，

2 \sum n = 1 N r n k (x n - μ k) = 0

$2 \sum_{n=1}^{N} r_{nk} ( \mathbf{x}_n - \mathbf{ \mu}_k ) = 0$

从而我们可以求得 $\mathbf{\mu}_k$ :

μ k = \sum n r n k x n \sum n r n k

$\mathbf{\mu}_k = \frac{ \sum_n r_{nk} \mathbf{x}_n }{ \sum_n r_{nk} }$

通过这样的反复迭代，直到所有的 $r_{nk} , \mathbf{ \mu}_k$ 都不再变化。

博客等级

码龄14年

博客专家认证

311
原创

1769
点赞

3817
收藏

2608
粉丝

关注

私信

热门文章

分类专栏

上一篇：: 机器学习：Kullback-Leibler Divergence （KL 散度）

下一篇：: 机器视觉：SSD Single Shot MultiBox Detector

最新评论

费马原理与光的反射折射
qq_43761940: 有一般情况的证明吗
论文阅读：High-Resolution Image Synthesis with Latent Diffusion Models
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：Classic Video Denoising in a Machine Learning World: Robust, Fast, and Controllable
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：Matting by Generation
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：Modeling Dual-Exposure Quad-Bayer Patterns for Joint Denoising and Deblurring
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。