【机器学习】机器学习的基本分类-无监督学习-K-Means聚类

原创于 2024-12-09 09:19:44 发布 · 1.4k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #分类 #学习 #人工智能 #聚类 #kmeans #算法

人工智能同时被 2 个专栏收录

121 篇文章

订阅专栏

机器学习

104 篇文章

订阅专栏

K-Means 是一种基于划分的无监督学习算法，用于数据聚类任务，它通过迭代优化将数据分组为 k 个互斥的簇，使得每个簇内数据点的相似性最大化，而簇间的相似性最小化。它通过最小化簇内样本点到簇中心的距离平方和（即误差平方和，SSE）来完成聚类任务。

1. 算法原理

目标函数

K-Means 的目标是最小化以下目标函数：

$J = \sum_{i=1}^k \sum_{x \in C_i} \|x - \mu_i\|^2$

k：簇的数量。
$C_i$ ：第 i 个簇的集合。
$\mu_i$ ：第 i 个簇的中心（质心）。
$\|x - \mu_i\|$ ：样本点 x 到质心 $\mu_i$ 的欧几里得距离。

步骤

初始化：随机选择 k 个初始质心。
分配样本点到最近的质心：将每个样本点分配到最近的簇中心，形成 k 个簇。
更新质心：计算每个簇中所有样本点的均值，作为新的簇中心。
迭代：重复步骤 2 和 3，直到簇中心不再发生显著变化或达到预设迭代次数。

2. 特点

优点

简单高效：算法容易理解和实现，适合中小型数据集。
快速收敛：在大多数情况下，K-Means 收敛速度较快。

缺点

需要指定 k：聚类数 k 需要预先指定，可能难以确定。
易受初始点影响：初始质心的选择可能导致不同的聚类结果。
对异常值敏感：异常点可能显著影响簇中心的位置。
仅适用于凸簇：不能有效处理非凸形状的簇。

3. 改进方法

K-Means++ 初始化：通过优化初始质心选择，减少对初始点的敏感性。

随机选择第一个质心。
根据与已选质心的距离概率选择后续质心。
应用标准 K-Means 算法。

Mini-Batch K-Means：对大数据集进行小批量更新，提高效率。
层次聚类结合：先使用层次聚类生成 k 个簇，再进行 K-Means 优化。
Elkan 算法：优化距离计算，加速收敛。

4. 确定 k 的方法

肘部法则 (Elbow Method)

计算不同 k 值下的误差平方和 (SSE)。
绘制 k-SSE 曲线，找到“肘部”点（即 SSE 的下降速度明显减缓的位置）。
该点对应的 k 值通常是最佳选择。

轮廓系数 (Silhouette Coefficient)

衡量聚类的质量：

$s = \frac{b - a}{\max(a, b)}$

a：样本点与同簇中其他点的平均距离。
b：样本点与最近簇中点的平均距离。

5. 实现 K-Means

Python 实现（使用 `scikit-learn`）

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成数据
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=42)

# K-Means 聚类
kmeans = KMeans(n_init=10, n_clusters=4, random_state=42)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75)
plt.title('K-Means Clustering')
plt.show()