使用 pyspark 进行 Clustering 的简单例子 -- KMeans

shiter

于 2023-11-01 00:05:26 发布

阅读量1.5k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：人工智能系统解决方案与技术架构基于大数据的机器学习原理与最佳实践大数据机器学习实践探索文章标签： kmeans 机器学习 pyspark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wangyaninglm/article/details/134151917

人工智能系统解决方案与技术架构同时被 3 个专栏收录

213 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

大数据机器学习实践探索

130 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

基于大数据的机器学习原理与最佳实践

84 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

K-means算法适合于简单的聚类问题，但可能不适用于复杂的聚类问题。此外，在使用K-means算法之前，需要对数据进行预处理和缩放，以避免偏差。

K-means是一种聚类算法，它将数据点分为不同的簇或组。Pyspark实现的K-means算法基本遵循以下步骤：

随机选择K个点作为初始质心。
根据每个点到质心的距离，将每个点分配到最近的簇中。
重新计算每个簇的质心。
重复步骤2和3，直到质心不再变化或达到预设的最大迭代次数。

原理简介：
K-Means算法通过迭代寻找数据集中的k个簇，每个簇内的数据点尽可能相似（即，簇内距离最小），不同簇之间的数据点尽可能不同（即，簇间距离最大）。算法首先随机选择k个数据点作为初始的聚类中心（也称为质心），然后对数据集中的每个数据点，根据其与聚类中心的距离将其分配到最近的簇中。接着，算法重新计算每个簇的质心为该簇所有数据点的均值。重复以上步骤，直到满足收敛条件（例如，质心的移动距离小于某个阈值）或达到最大迭代次数。

优缺点介绍：
K-Means算法的优点包括：

原理简单，实现容易，收敛速度快。
对于处理大数据集，K-Means算法具有较高的效率。
当结果是密集的时，其聚类效果较好。

然而，K-Means算法也存在一些缺点：

k值的选择对聚类结果影响较大，需要仔细选择。
对初值敏感，不同的初始质心选择可能会导致不同的聚类结果。
对噪声和异常点比较敏感，这些点可能会对聚类结果产生负面影响。

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

shiter 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。