Kmeans算法的实现主要分为个部分。
首先在网易公开课上系统学习了吴恩达的《深度学习公开课》,了解了Kmeans背后的算法逻辑,如下图所示:
接下来,我尝试使用代码对Kmeans进行实现。实现过程当中,我将随机样本设置为簇中心,在生成随机数据时,我使用 np.random.randn(n_samples, dimensions) 生成一个随机的正态分布矩阵,通过乘以 cluster_std 来调整数据点在第一个维度上的分布,使得数据点在第一个维度上的分布更加紧密或分散。这样生成的数据点将具有随机性,但同时在第一个维度上会有一定的聚集性,这有助于模拟实际数据中的聚类现象。
总共分为分为了两个文件,一个是Kmeans.py,这个文件实现了生成随机数据,并将数据进行聚类,接着将数据保存在excel当中。另一个是visualize.py,这个文件将聚类后的数据画出来,并按照聚类的label进行标注颜色。
以下是Kmean.py:
import numpy as np
import pandas as pd
import openpyxl
def Kmeans(data_points,k,size):
"""
:param data: 需要进行聚类的所有数据
:param k: 聚类中心的个数
:return: 返回簇的坐标和标签
""