手把手教你玩转K-means聚类分析（附Python实战代码）

最新推荐文章于 2025-05-05 11:09:45 发布

原创最新推荐文章于 2025-05-05 11:09:45 发布 · 776 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#kmeans #python #算法

一、什么是聚类分析？（从分班级说起）

大家小时候都经历过分班吧？老师会根据身高、成绩、性别等特征把同学们分成不同的小组。在机器学习领域，聚类（Clustering）就扮演着类似的"班主任"角色！它能把看似杂乱无章的数据，按照相似性自动分组归类。

举个真实案例：某电商平台有10万用户购买记录，想针对不同消费群体制定营销策略。这时候K-means算法就像个智能分班系统，能自动把用户分成"土豪用户组"、“价格敏感组”、"母婴产品组"等不同群体，是不是超实用？！

二、K-means算法原理揭秘（3步核心流程）

1. 初始化阶段（选班长）

随机选取K个数据点作为初始聚类中心，就像老师随机指定几个同学当临时班长。这里有个坑要注意（必看）：

K值要提前设定好（怎么选K值？后面有妙招！）
不同初始化可能导致不同结果（后面教大家解决方法）

2. 分配阶段（同学找组织）

计算每个数据点到各个聚类中心的距离，然后分配到最近的簇。常用距离计算公式：

欧式距离 = √(Σ(xi - yi)^2)

举个栗子🌰：A点坐标(1,2)，B点(4,6)，距离就是√[(1-4)²+(2-6)²]=5

3. 更新阶段（重新选班长）

计算每个簇的新中心点（取平均值），就像根据同学们的表现重新选班长。重复2-3步直到：

中心点不再变化
达到最大迭代次数
目标函数收敛（通常指误差平方和SSE变化量小于阈值）

三、Python实战：电商用户分群案例

数据准备（模拟数据生成）

import numpy as np
import pandas as pd
from sklearn.datasets import make_blobs

# 生成1000个样本，3个特征，4个真实类别
X, y = make_blobs(n_samples=1000, n_features=3, centers=4, random_state=42)
df = pd.DataFrame(X, columns=['年度消费金额', '月均登录次数', '客单价'])

模型训练（sklearn版）

from sklearn.cluster import KMeans

# 肘部法则确定最佳K值（重点！！！）
sse = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, init='k-means++', n_init=10)
    kmeans.fit(df)
    sse.append(kmeans.inertia_)

# 可视化找到拐点（这里假设k=4是最佳值）
plt.plot(range(1,11), sse, marker='o')
plt.xlabel('K值')
plt.ylabel('SSE')
plt.show()

# 正式建模
final_kmeans = KMeans(n_clusters=4, init='k-means++', max_iter=300)
clusters = final_kmeans.fit_predict(df)

结果分析（三维可视化）

from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure(figsize=(12,8))
ax = fig.add_subplot(111, projection='3d')

scatter = ax.scatter(df.iloc[:,0], df.iloc[:,1], df.iloc[:,2], 
                    c=clusters, s=50, cmap='viridis')

ax.set_xlabel('年度消费金额')
ax.set_ylabel('月均登录次数')
ax.set_zlabel('客单价')
plt.title('电商用户聚类分析三维分布')
plt.show()

四、调参技巧大全（避坑指南）

1. K值选择三板斧

肘部法则（Elbow Method）：看SSE下降拐点
轮廓系数（Silhouette Score）：[-1,1]越大越好
业务需求：根据实际场景确定分组数量

2. 初始化优化方案

k-means++：智能初始化，减少随机性影响
多次随机初始化：取最优结果（n_init参数控制）
先做PCA降维：去除噪声，提升效果

3. 数据预处理要点

标准化处理（不同量纲特征必须处理！）

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df)

缺失值处理（删除或插补）
异常值处理（使用IQR方法检测）

五、优缺点深度解析（真实项目经验）

👍 优势面面观：

计算效率高（时间复杂度O(nkt)，n样本数，k簇数，t迭代次数）
原理简单易懂
适合球形分布数据
可扩展性强（支持mini-batch优化）

👎 局限性及应对：

对异常值敏感 ➡️ 增加数据清洗步骤
需要预设K值 ➡️ 结合轮廓系数和业务需求
受初始化影响大 ➡️ 使用k-means++初始化
只能发现凸形簇 ➡️ 改用DBSCAN等算法

六、进阶实战：用户画像构建

基于聚类结果，我们可以构建用户画像：

# 计算各簇特征均值
df['cluster'] = clusters
cluster_profile = df.groupby('cluster').mean()

# 添加规模统计
cluster_profile['用户规模'] = df['cluster'].value_counts().sort_index()

print(cluster_profile)