33、聚类算法：原理、应用与挑战

最新推荐文章于 2025-11-07 14:47:05 发布

read5

最新推荐文章于 2025-11-07 14:47:05 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习：从理论到实践文章标签：聚类算法 k-均值谱聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/read5/article/details/154560606

机器学习：从理论到实践专栏收录该内容

44 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

聚类算法：原理、应用与挑战

1. 引言

聚类是一种无监督学习问题，旨在将一组点划分为“有意义”的子集。在实际应用中，聚类算法有着广泛的用途，如文本分类、图像分割等。本文将介绍几种常见的聚类方法，包括 k - 均值算法、谱聚类和信息瓶颈法，并探讨聚类的基本性质和挑战。

2. k - 均值算法

2.1 算法概述

k - 均值算法的目标函数在聚类的实际应用中非常流行。然而，找到最优的 k - 均值解通常在计算上是不可行的，因为该问题是 NP 难的，甚至难以在某个常数范围内进行近似。因此，通常使用以下简单的迭代算法：
- 输入：$X \subset R^n$；聚类数 $k$
- 初始化 ：随机选择初始质心 $\mu_1, \ldots, \mu_k$
- 重复直到收敛 ：
- 对于 $\forall i \in [k]$，设置 $C_i = {x \in X : i = \arg\min_j |x - \mu_j|}$（以某种任意方式打破平局）
- 对于 $\forall i \in [k]$，更新 $\mu_i = \frac{1}{|C_i|} \sum_{x \in C_i} x$

2.2 算法性质

每次 k - 均值算法的迭代不会增加 k - 均值目标函数的值。然而，该算法达到收敛所需的迭代次数没有保证，并且算法输出的 k - 均值目标值与该目标函数的最小可能值之间的差距没有非平凡的下界。实际上，k - 均值可能收敛到一个甚至不是局部最小值的点。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。