class sklearn.cluster.KMeans(n_clusters=8, *, init='kmeans++', n_init=10, max_iter=300, tol=0.0001,
precompute_distances='deprecated', verbose=0, random_state=None, copy_x=True, n_jobs='deprecated', algorithm='auto')
参数:
1、 n_clusters: 聚类类别数量,也是初始聚类中心的数量,default=8
2、init: 聚类的初始化中心的方案, dafault='k-means++'
'k-means++': (1)从输入的数据点集合(要求有k个聚类)中随机选择一个点作为第一个聚类中心;(2)、对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x);(3)、选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大;(4)、重复2和3直到k个聚类中心被选出来。
'random': 从data中随机选取n_clusters数量的点作为初始中心;
'ndarray': 传入的是形状为(n_clusters, n_features)的二维数组,数组的每一行作为一个中心;

本文详细介绍了K-Means聚类算法的参数,包括n_clusters、init、max_iter、n_init等关键参数的作用和选择。同时,讨论了算法的优化策略,如'elkan'算法,以及其在稀疏数据上的限制。还涵盖了聚类后的属性,如cluster_centers_、labels_、inertia_和n_iter_。
最低0.47元/天 解锁文章
10万+

被折叠的 条评论
为什么被折叠?



