K-means最优K值计算（利用SSE）

最新推荐文章于 2025-10-09 09:43:17 发布

转载最新推荐文章于 2025-10-09 09:43:17 发布 · 8.8k 阅读

Python 同时被 2 个专栏收录

14 篇文章

订阅专栏

数据分析

5 篇文章

订阅专栏

本文介绍了一种基于K-means算法的聚类分析方法，通过计算不同簇数量时的SSE（误差平方和），来评估聚类效果。使用Python的KMeans类进行模型训练，对训练数据进行聚类，并计算每个样本到其所属簇中心的距离平方和，以此作为评价标准。

参考代码

def distEclud(vecA, vecB):
    """
    计算两个向量的欧式距离的平方，并返回
    """
    return np.sum(np.power(vecA - vecB, 2))
 
def test_Kmeans_nclusters(data_train):
    """
    计算不同的k值时，SSE的大小变化
    """
    data_train = data_train.values
    nums=range(2,10)
    SSE = []
    for num in nums:
        sse = 0
        kmodel = KMeans(n_clusters=num, n_jobs=4)
        kmodel.fit(data_train)
        # 簇中心
        cluster_ceter_list = kmodel.cluster_centers_
        # 个样本属于的簇序号列表
        cluster_list = kmodel.labels_.tolist()
        for index in  range(len(data)):
            cluster_num = cluster_list[index]
            sse += distEclud(data_train[index, :], cluster_ceter_list[cluster_num])
        print("簇数是",num , "时； SSE是", sse)
        SSE.append(sse)
    return nums, SSE
 
nums, SSE = test_Kmeans_nclusters(filter_zscore_data)