参数名称 | 默认值及输入类型 | 参数解释 |
algorithm | 默认:Auto 有auto、full和elkan三种选择。 | algorithm: 优化算法的选择,有auto、full和elkan三种选择。
|
copy_x | True | 主要起作用于提前计算距离的情况,如果是True,则表示在源数据的副本上提前计算距离时,不会修改源数据。 |
init | 默认值为‘k-means++’ 有三个可选值:‘k-means++’、‘random’、或者传递一个ndarray向量。
|
(1)、从输入的数据点集合(要求有k个聚类)中随机选择一个点作为第一个聚类中心;(2)、对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x);(3)、选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大;(4)、重复2和3直到k个聚类中心被选出来
|
max_iter | 默认值为300 int型, | 最大迭代数。 |
n_clusters | 默认为8 int型 | 生成的聚类数, |
n_init | 默认值为10 int型 | 用不同的聚类中心初始化值运行算法的次数,最终解是在inertia意义下选出的最优结果。 |
n_jobs | int型。 | 指定计算所用的进程数。内部原理是同时进行n_init指定次数的计算。
|
precompute_distances | 默认值是auto auto,True,False三个参数值可选 | 是否需要提前计算距离 如果选择auto,当样本数*质心数>12兆的时候,就不会提前进行计算,如果小于则会与提前计算。提前计算距离会让聚类速度很快,但是也会消耗很多内存。 |
random_state | 默认值为numpy.RandomState 类型, 还可以选择int型 | 用于初始化质心的生成器(generator)。如果值为一个整数,则确定一个seed。
|
tol | 1e-4 | float型,容忍的最小误差,当误差小于tol就会退出迭代,与inertia结合来确定收敛条件。 |
verbose | 默认为0 | 是否输出详细信息, |