2025聚类算法实战指南：从原理到Microsoft Learn项目落地-优快云博客

2025聚类算法实战指南：从原理到Microsoft Learn项目落地

【免费下载链接】ml-basics Exercise notebooks for Machine Learning modules on Microsoft Learn 项目地址: https://gitcode.com/gh_mirrors/mlb/ml-basics

引言：你还在为聚类算法选择发愁吗？

在机器学习领域，无监督学习如同探索未知的宝藏地图，而聚类算法则是你的罗盘。当面对海量无标签数据时，如何快速发现数据内在结构、划分有意义的群组，成为数据科学家的核心挑战。本文将带你深入剖析聚类算法的核心原理，通过Microsoft Learn官方实战项目（ml-basics）的案例，掌握K-Means与层次聚类的实施步骤，解决"如何确定聚类数量"、"算法选择依据"等关键问题。读完本文，你将获得：

3种主流聚类算法的数学原理与适用场景
肘部法与轮廓系数优化聚类数量的实现代码
基于真实数据集的完整聚类流程（含数据预处理与可视化）
解决聚类挑战问题的分步方案（附Python代码）
聚类结果评估与业务落地的最佳实践

聚类算法核心原理与对比

1. 聚类算法分类与应用场景

算法类型	核心思想	时间复杂度	适用场景	优点	缺点
K-Means	基于距离的划分方法	O(nkt)	球形分布数据、大规模数据集	速度快、可扩展性好	需要预先指定K值、对初始值敏感
层次聚类	构建聚类树状图	O(n²)	非球形簇、小样本数据	无需指定K值、可视化聚类过程	计算成本高、难以处理噪声
DBSCAN	基于密度的聚类	O(n log n)	任意形状簇、含噪声数据	自动识别异常值、无需指定K	对密度参数敏感、高维数据效果差

2. K-Means算法工作流程

mermaid

K-Means算法通过迭代优化实现聚类：

随机选择K个初始质心（centroids）
计算每个样本到质心的欧氏距离，分配到最近簇
重新计算各簇均值作为新质心
重复步骤2-3直至质心位置稳定（通常使用平方误差和SSE作为收敛指标）

关键优化技术：

K-Means++：优化初始质心选择，提高聚类稳定性
肘部法（Elbow Method）：通过SSE曲线确定最佳K值
轮廓系数（Silhouette Score）：综合考虑簇内相似度与簇间分离度

实战准备：环境配置与项目结构

1. 项目环境搭建

# 克隆项目仓库
git clone https://gitcode.com/gh_mirrors/mlb/ml-basics
cd ml-basics

# 安装依赖包
pip install numpy pandas scikit-learn matplotlib seaborn

2. 项目文件结构解析

ml-basics/
├── 04 - Clustering.ipynb        # 聚类算法核心教程
├── data/
│   ├── seeds.csv                # 种子数据集（7个特征，3类种子）
│   └── clusters.csv             # 挑战题数据集（3个特征）
└── challenges/
    ├── 04 - Clustering Challenge.ipynb  # 聚类实战挑战
    └── 04 - Clustering Solution.ipynb   # 挑战解决方案

K-Means聚类完整实施步骤

1. 数据加载与探索性分析

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA

# 加载种子数据集
data = pd.read_csv('data/seeds.csv')
features = data[data.columns[0:6]]  # 提取6个特征列

# 数据基本统计信息
print(features.describe())

# 数据标准化（K-Means对尺度敏感）
scaler = MinMaxScaler()
scaled_features = scaler.fit_transform(features)

# PCA降维可视化（6D→2D）
pca = PCA(n_components=2)
features_2d = pca.fit_transform(scaled_features)

# 绘制散点图
plt.figure(figsize=(10, 6))
plt.scatter(features_2d[:, 0], features_2d[:, 1], alpha=0.6)
plt.xlabel('主成分1')
plt.ylabel('主成分2')
plt.title('PCA降维后的种子数据集')
plt.grid(True)
plt.show()

2. 肘部法确定最佳K值

from sklearn.cluster import KMeans
import numpy as np

# 计算不同K值下的SSE
wcss = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, init='k-means++', n_init=10, max_iter=300)
    kmeans.fit(scaled_features)
    wcss.append(kmeans.inertia_)  # inertia_属性存储SSE值

# 绘制肘部曲线
plt.figure(figsize=(10, 6))
plt.plot(range(1, 11), wcss, 'bo-', linewidth=2, markersize=8)
plt.xlabel('聚类数量K', fontsize=12)
plt.ylabel('WCSS(簇内平方和)', fontsize=12)
plt.title('肘部法确定最佳K值', fontsize=14)
plt.axvline(x=3, color='r', linestyle='--')  # 肘部点
plt.grid(True)
plt.show()

关键代码解析：

init='k-means++'：智能初始化质心位置，避免随机初始化导致的局部最优
n_init=10：运行10次不同初始质心的K-Means，选择SSE最小的结果
max_iter=300：最大迭代次数确保收敛

3. K-Means聚类实现与可视化

# 使用最佳K值=3执行K-Means
kmeans = KMeans(n_clusters=3, init='k-means++', n_init=100, max_iter=1000, random_state=42)
clusters = kmeans.fit_predict(scaled_features)

# 可视化聚类结果
def plot_clusters(samples, clusters):
    plt.figure(figsize=(10, 6))
    col_dic = {0: '#2E9FDF', 1: '#E7B800', 2: '#FC4E07'}
    mrk_dic = {0: 'o', 1: 's', 2: 'D'}
    colors = [col_dic[x] for x in clusters]
    markers = [mrk_dic[x] for x in clusters]
    for sample in range(len(clusters)):
        plt.scatter(samples[sample][0], samples[sample][1], 
                   color=colors[sample], marker=markers[sample], 
                   s=50, alpha=0.7)
    plt.xlabel('主成分1')
    plt.ylabel('主成分2')
    plt.title('K-Means聚类结果 (K=3)')
    plt.grid(True)
    plt.show()

plot_clusters(features_2d, clusters)

层次聚类原理与实现

1. 层次聚类树状图可视化

from scipy.cluster.hierarchy import dendrogram, linkage
import matplotlib.pyplot as plt

# 使用 Ward 方法计算距离
linked = linkage(scaled_features, method='ward')

# 绘制树状图
plt.figure(figsize=(15, 8))
dendrogram(linked,
           orientation='top',
           distance_sort='descending',
           show_leaf_counts=True)
plt.axhline(y=6, color='r', linestyle='--')  # 截取阈值
plt.title('层次聚类树状图', fontsize=14)
plt.xlabel('样本索引', fontsize=12)
plt.ylabel('距离', fontsize=12)
plt.show()

2. 凝聚式层次聚类实现

from sklearn.cluster import AgglomerativeClustering

# 基于树状图分析选择3个簇
agg_clustering = AgglomerativeClustering(n_clusters=3, linkage='ward')
agg_clusters = agg_clustering.fit_predict(scaled_features)

# 对比K-Means和层次聚类结果
plot_clusters(features_2d, agg_clusters)

# 计算两种算法的调整兰德指数（ARI）
from sklearn.metrics import adjusted_rand_score
ari = adjusted_rand_score(clusters, agg_clusters)
print(f"两种聚类算法的一致性 (ARI): {ari:.4f}")

层次聚类参数选择：

linkage='ward'：最小化簇内方差（类似K-Means）
linkage='average'：使用平均距离，适合非球形簇
linkage='complete'：使用最大距离，对噪声更敏感

实战挑战：聚类未知数据集

1. 挑战数据集分析

# 加载挑战数据集
challenge_data = pd.read_csv('challenges/data/clusters.csv')
print(f"数据集形状: {challenge_data.shape}")
print(challenge_data.describe())

# 数据可视化
import seaborn as sns
sns.pairplot(challenge_data, height=2)
plt.suptitle('特征两两关系散点图', y=1.02)
plt.show()

2. 多指标确定最佳聚类数量

from sklearn.metrics import silhouette_score
import numpy as np

# 计算不同K值的SSE和轮廓系数
sil_scores = []
wcss_scores = []
for k in range(2, 11):
    kmeans = KMeans(n_clusters=k, init='k-means++', n_init=10, random_state=42)
    labels = kmeans.fit_predict(challenge_data)
    sil_scores.append(silhouette_score(challenge_data, labels))
    wcss_scores.append(kmeans.inertia_)

# 可视化评估指标
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
# 轮廓系数图
ax1.plot(range(2, 11), sil_scores, 'bo-', linewidth=2)
ax1.set_xlabel('聚类数量K')
ax1.set_ylabel('轮廓系数')
ax1.axvline(x=4, color='r', linestyle='--')
# SSE曲线
ax2.plot(range(2, 11), wcss_scores, 'go-', linewidth=2)
ax2.set_xlabel('聚类数量K')
ax2.set_ylabel('WCSS')
ax2.axvline(x=4, color='r', linestyle='--')
plt.suptitle('聚类数量评估指标', fontsize=14)
plt.show()

3. 挑战问题完整解决方案

# 最佳解决方案代码
def solve_clustering_challenge(data_path):
    # 1. 加载数据
    data = pd.read_csv(data_path)
    
    # 2. 数据预处理
    scaler = MinMaxScaler()
    scaled_data = scaler.fit_transform(data)
    
    # 3. 降维可视化
    pca = PCA(n_components=2)
    data_2d = pca.fit_transform(scaled_data)
    
    # 4. 确定最佳K值
    best_k = 4  # 基于前期分析
    
    # 5. 执行K-Means聚类
    kmeans = KMeans(n_clusters=best_k, init='k-means++', n_init=50, random_state=42)
    clusters = kmeans.fit_predict(scaled_data)
    
    # 6. 结果可视化
    plt.figure(figsize=(10, 6))
    plt.scatter(data_2d[:, 0], data_2d[:, 1], c=clusters, cmap='viridis', s=50, alpha=0.7)
    plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], 
               marker='X', s=200, c='red', label='质心')
    plt.xlabel('主成分1')
    plt.ylabel('主成分2')
    plt.title(f'挑战数据集聚类结果 (K={best_k})')
    plt.legend()
    plt.grid(True)
    plt.show()
    
    # 7. 评估聚类质量
    sil_score = silhouette_score(scaled_data, clusters)
    print(f"轮廓系数: {sil_score:.4f}")
    
    return clusters

# 执行解决方案
clusters = solve_clustering_challenge('challenges/data/clusters.csv')

聚类算法评估与业务落地

1. 聚类质量评估指标

评估指标	取值范围	理想值	特点
轮廓系数	[-1, 1]	接近1	综合考虑簇内紧凑度和簇间分离度
Calinski-Harabasz	[0, ∞)	越大越好	比值越高，簇分离越明显
Davies-Bouldin	[0, ∞)	接近0	平均类内距离与类间距离之比
调整兰德指数	[-1, 1]	接近1	需要真实标签，衡量聚类与真实分类一致性

2. 聚类结果的业务应用

# 分析各簇特征分布
challenge_data['cluster'] = clusters
cluster_analysis = challenge_data.groupby('cluster').agg(['mean', 'std'])

# 可视化簇特征对比
fig, axes = plt.subplots(1, 3, figsize=(18, 6))
features = ['A', 'B', 'C']
for i, feature in enumerate(features):
    cluster_analysis[feature]['mean'].plot(kind='bar', yerr=cluster_analysis[feature]['std'], 
                                          ax=axes[i], color=['#2E9FDF', '#E7B800', '#FC4E07', '#76B900'])
    axes[i].set_title(f'特征 {feature} 的簇间对比')
    axes[i].set_ylabel(feature)
plt.tight_layout()
plt.show()

业务洞察示例：

簇0：高A值、低B值，可能代表价格敏感型客户
簇1：低A值、高C值，可能对应高端用户群体
簇2：特征B值显著高于其他簇，可作为目标营销群体

总结与下一步学习路线

1. 聚类算法关键知识点回顾

核心流程：数据预处理→特征降维→聚类算法选择→参数优化→结果评估→业务应用
K-Means调优：K值确定（肘部法/轮廓系数）、初始质心优化（K-Means++）、迭代次数
算法选择：大规模数据选K-Means，非球形簇选DBSCAN，层次关系选层次聚类

2. 进阶学习路线

mermaid

3. 项目实战拓展

尝试使用不同距离度量（余弦距离、曼哈顿距离）对比聚类效果
实现聚类与分类结合的半监督学习方案
探索高维数据聚类前的特征选择方法
使用t-SNE替代PCA进行降维可视化，观察是否有不同发现

资源与互动

代码资源

完整Jupyter Notebook：04 - Clustering.ipynb
挑战题与解决方案：challenges/04 - Clustering Challenge.ipynb

请完成以下操作：

点赞收藏本文，方便日后查阅聚类算法实现细节
关注作者，获取更多机器学习实战教程
在评论区分享你的聚类项目经验或疑问

下期预告：《2025特征工程实战：从变量选择到特征重要性分析》

本文基于Microsoft Learn机器学习基础项目(ml-basics)编写，项目仓库地址：https://gitcode.com/gh_mirrors/mlb/ml-basics

【免费下载链接】ml-basics Exercise notebooks for Machine Learning modules on Microsoft Learn 项目地址: https://gitcode.com/gh_mirrors/mlb/ml-basics

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考