聚类分析介绍

最新推荐文章于 2025-07-28 08:44:37 发布

原创最新推荐文章于 2025-07-28 08:44:37 发布 · 104 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#支持向量机 #算法 #机器学习 #聚类

python 专栏收录该内容

18 篇文章

订阅专栏

引言

聚类分析是一种重要的数据挖掘技术，用于在没有明确类别标签的情况下发现数据中的自然簇结构。它广泛应用于客户细分、图像处理、生物信息学和推荐系统等领域。例如，在客户细分中，聚类可以帮助企业识别不同消费群体，提升营销策略的精准度。

基本概念

聚类（Clustering）：将数据按相似性分类，使同一簇内的数据点尽可能相似，而不同簇之间则尽可能不同。
特征向量（Feature Vector）：描述数据点的各种属性，形成n维空间中的向量。

评估指标

聚类质量可通过以下指标评估：

轮廓系数（Silhouette Coefficient）：衡量每个数据点的聚类分配质量，范围[-1, 1]。
Calinski-Harabasz指数：高值表示簇结构清晰。
Davies-Bouldin指数：低值说明聚类效果好。

常见算法

K均值聚类（K-Means）

工作原理：通过迭代优化目标函数，将数据划分为K个簇，每个簇由质心表示。
使用场景：适用于球形分布、密度较高的数据，计算效率高。
注意事项：需要预先指定簇数K，初始质心可影响结果，可采用K-means++算法优化。

层次聚类（Hierarchical Clustering）

工作原理：通过聚合或划分方法构建层级树状结构（Dendrogram）。
使用场景：适用于层次结构明显或簇数未知的情况，支持不同距离度量。
注意事项：计算复杂度较高，选择距离链接方式会影响结果。

DBSCAN（基于密度的噪声聚类）

工作原理：基于密度区域发现核心点和边界点，扩展形成簇。
使用场景：适合处理任意形状的密度差异化数据集，有噪声点剔除功能。
注意事项：参数eps（邻域半径）和minPts需调优，计算效率可能较低。

其他算法

均值偏移聚类（Mean Shift）：基于核密度估计，适合发现任意形状的高密度区域。
谱聚类（Spectral Clustering）：将数据映射到谱空间，对图结构的数据效果尤佳。

实例说明

K均值聚级实战

数据准备

import numpy as np
from sklearn import datasets
import matplotlib.pyplot as plt

# 生成样本数据
centers = [(-5, -5), (0, 0), (5, 5)]
cluster_std = [1.5, 1, 1]
X, labels_true = datasets.make_blobs(n_samples=200, centers=centers,
                                    cluster_std=cluster_std, random_state=42)

模型训练

from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)

# 计算轮廓系数
from sklearn.metrics import silhouette_score
score = silhouette_score(X, kmeans.labels_)
print(f"Silhouette Coefficient: {score}")

结果分析

plt.figure(figsize=(10, 7))
plt.scatter(X[:,0], X[:,1], c=kmeans.labels_, cmap='viridis', s=30)
plt.title("K-Means Clustering")
plt.show()

层次聚类实战

数据准备

使用同样的X数据。

模型训练

from sklearn.cluster import AgglomerativeClustering

hclust = AgomerativeClustering(n_clusters=3)
hclust.fit(X)

# 评估
hc_score = silhouette_score(X, hclust.labels_)
print(f"Hierarchical Silhouette Coefficient: {hc_score}")

可视化层级树状图

from scipy.cluster.hierarchy import dendrogram, linkage

plt.figure(figsize=(10,7))
Z = linkage(X, 'ward')
dendrogram(Z)
plt.title("Hierarchical Clustering Dendrogram")
plt.show()

DBSCAN实战

数据准备

生成带有噪声的数据：

import numpy as np
from sklearn.datasets import make_moons
X, _ = make_moons(n_samples=200, noise=0.05)
noise = np.random.rand(20,2) * 5
X = np.vstack([X, noise])

模型训练与评估

from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.3, min_samples=10)
dbscan.fit(X)

# Evaluation is tricky as some points are marked as -1 (noise)
score = silhouette_score(X[dbscan.labels_ != -1], dbscan.labels_[dbscan.labels_ != -1])
print(f"DBSCAN Silhouette Coefficient: {score}")

结果展示

plt.figure(figsize=(10,7))
scatter = plt.scatter(X[:,0], X[:,1], c=dbscan.labels_, s=30)
scatter.set_array(dbscan.labels_)
plt.title("DBSCAN Clustering")
plt.show()

均值偏移与谱聚类实战

均值偏移

from sklearn.cluster import MeanShift
meanshift = MeanShift(max_iter=100, bin_seeding=True)
meanshift.fit(X)
score_ms = silhouette_score(X, meanshift.labels_)
print(f"Mean Shift Silhouette Coefficient: {score_ms}")

谱聚类

from sklearn.cluster import SpectralClustering

spectral = SpectralClustering(n_clusters=3)
spectral.fit(X)
spec_labels = spectral.labels_

score_spec = silhouette_score(X, spec_labels)
print(f"Spectral Clustering Silhouette Coefficient: {score_spec}")

总结：如何选择聚类算法？

算法	数据分布	簇数明确性	噪声处理	计算效率
K均值	圆形、密度较高	需要指定	不适合	高效
层次聚类	层次结构或簇数未知	可选	中等	较低
DBSCAN	任意形状，具有密度差异	未指定	适合	一般