使用Kmeans算法完成聚类任务

最新推荐文章于 2024-07-11 13:52:29 发布

原创

最新推荐文章于 2024-07-11 13:52:29 发布 · 2.6k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #kmeans #机器学习

聚类任务

聚类任务是一种无监督学习任务，其目的是将一组数据点划分成若干个类别或簇，使得同一个簇内的数据点之间的相似度尽可能高，而不同簇之间的相似度尽可能低。聚类算法可以帮助我们发现数据中的内在结构和模式，发现异常点和离群值，简化数据表示，以及为进一步的分析提供基础。聚类任务在现实世界中有很多应用场景，以下是其中的一些例子：

市场细分：聚类可以帮助将市场分成不同的细分市场，以便更好地针对消费者需求制定营销策略。
图像分析：聚类可以用于图像分析，例如将相似的图像分组。
模式识别：聚类可以用于发现数据中的模式和关系，例如在医疗领域中，可以使用聚类来发现疾病之间的关系。
推荐系统：聚类可以用于推荐系统中，以将用户分组并向他们推荐相似的产品或服务。

K-Means算法

K-Means是一种基于聚类的无监督机器学习算法，其目的是将一组数据点分为k个不同的簇，使得每个数据点与其所属簇的中心点（也称质心）的距离最小化。以下是K-Means的工作原理：

初始化：随机选择k个数据点作为初始质心。
分配：对每个数据点,计算其与每个质心的距离，并将其分配给距离最近的质心所代表的簇。
重新计算质心：对于每个簇，重新计算其质心位置，即将该簇中所有数据点的坐标求平均。
重复执行第2,3步，直到所有数据点的簇分配不再改变或达到预设的最大迭代次数为止。

下面是用K-Means算法完成聚类的简单Demo，下面的demo中K设置为2.

from sklearn.cluster import KMeans
import numpy as np
# create some sample data
X = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]])
# create a KMeans object with 2 clusters
kmeans = KMeans(n_clusters=2, random_state=0)
# fit the KMeans object to the data
kmeans.fit(X)
# print the centroids of the two clusters
print(kmeans.cluster_centers_)
# predict the cluster labels for the data points
labels = kmeans.predict(X)
# print the predicted cluster labels for the data points
print(labels)

执行结果：cluster_centers_:[[1. 2.][4. 2.]], labels:[0 0 0 1 1 1]

上面的Demo中使用到KMeans函数，KMeans函数是一种聚类分析算法，用于将数据集分成多个簇。其主要作用是将相似的数据点分到同一个簇中，同时将不同的数据点分到