本篇文章大部分代码延续了上一篇(Kmeans算法实现(只调用数学运算的库)-优快云博客)
但在自动生成数据函数generate上做了一些改进,代码如下:
def generate_data(size,dimension,centers,cluster_std):
"""
:param size: 表示生成数据的总个数
:param dimension: 表示生成数据的维度
:param centers: 随机生成数据围绕的点
:param cluster_std: 浮点数,表示簇内数据的标准差
:return: 返回生成的数据
"""
all_data = []
for center in centers:
data = np.random.randn(size,dimension)*cluster_std+np.array(center)
all_data.append(data)
all_points = np.vstack(all_data)
return all_points
尝试一:自定义三个点,在这三个点的周围生成随机数据,不断地把这三个点靠拢,观察Kmeans聚类算法的效果
第一次:定义三点为(-5, -4), (-2, 0), (2, 4),簇中心为3,每个点周围数据量为20个,聚类结果如下图所示