【聚类技术】谱聚类

云博士的AI课堂

于 2025-02-28 07:34:30 发布

阅读量617

点赞数 11

分类专栏：哈佛博后带你玩转机器学习文章标签：聚类数据挖掘机器学习谱聚类深度学习人工智能大模型

本文链接：https://blog.youkuaiyun.com/l35633/article/details/145918349

版权

哈佛博后带你玩转机器学习专栏收录该内容

199 篇文章

订阅专栏

第9章聚类技术

4节谱聚类

谱聚类（Spectral Clustering）是一种基于图论的聚类方法。它通过构造数据点之间的相似度矩阵，并将其表示为图，通过图的特征分解来进行聚类。谱聚类是一种非常强大的技术，特别是在数据呈现非线性结构或簇的形状不规则时，谱聚类能够有效地发现数据的潜在模式。

与传统的聚类方法（如K均值）不同，谱聚类不直接依赖于数据空间的距离度量，而是通过计算数据点之间的相似度来构建图，利用图的谱特性来进行聚类。

谱聚类的步骤如下：

构建相似度矩阵：计算数据点之间的相似度，通常使用高斯核（Gaussian Kernel）来衡量相似度。
构建拉普拉斯矩阵：拉普拉斯矩阵是相似度矩阵的一个变换，它能够反映数据点之间的关系。
特征分解：计算拉普拉斯矩阵的特征值和特征向量，并选择前k个特征向量。
聚类：将选择的特征向量作为新的特征，使用K均值等算法进行聚类。

谱聚类常用于解决以下问题：

聚类数目不确定的情况下。
数据的簇形状复杂或非球形。
数据中存在非线性关系。

谱聚类算法原理

3.特征分解：对拉普拉斯矩阵 LL 进行特征分解，获取其特征值和特征向量。选择前k个特征向量组成特征矩阵。

4.K均值聚类：将特征矩阵作为新的数据表示，使用K均值聚类算法进行最终的聚类。

案例1：社交网络中的社区发现

案例描述：在社交网络中，用户之间的连接形成了一个图。通过谱聚类，我们可以识别社交网络中的社区结构，即具有密切联系的用户群体。通过社区发现，可以帮助推荐系统更好地理解用户兴趣，或者通过社交网络分析识别社交网络中的影响力人物。

案例分析：社交网络中的每个用户可以被看作图中的一个节点，用户之间的关系（如好友关系）可以表示为图的边。谱聚类通过计算用户之间的相似度，找到密切联系的社区。通过此聚类，我们能够发现社交网络中的潜在社群。

算法步骤：

数据准备：构建用户之间的相似度矩阵，可以通过用户的互动次数或共同好友数来衡量相似度。
构建拉普拉斯矩阵：基于相似度矩阵，构建图的拉普拉斯矩阵。
特征分解：对拉普拉斯矩阵进行特征分解，选择前k个特征向量。
K均值聚类：使用K均值算法对特征向量进行聚类，得到社交网络中的社区。

Python代码：

import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.metrics.pairwise import cosine_similarity
from scipy.sparse.csgraph import laplacian
import matplotlib.pyplot as plt

# 模拟社交网络数据：10个用户之间的互动矩阵
np.random.seed(42)
interaction_matrix = np.random.randint(0, 10, (10, 10))

# 计算相似度矩阵（这里使用余弦相似度）
similarity_matrix = cosine_similarity(interaction_matrix)

# 计算拉普拉斯矩阵
laplacian_matrix, _ = laplacian(similarity_matrix, normed=True, return_diag=True)

# 计算拉普拉斯矩阵的特征值和特征向量
eigvals, eigvecs = np.linalg.eigh(laplacian_matrix)

# 选择前2个特征向量进行聚类
X = eigvecs[:, :2]

# 使用K均值算法对特征向量进行聚类
kmeans = KMeans(n_clusters=3)
clusters = kmeans.fit_predict(X)

# 可视化聚类结果
plt.scatter(range(10), np.zeros(10), c=clusters, cmap='viridis')
plt.title('Community Detection in Social Network')
plt.xlabel('Users')
plt.ylabel('Community')
plt.show()

代码解析：

构建相似度矩阵：我们使用随机生成的用户互动数据构建了一个10x10的互动矩阵，之后通过余弦相似度计算用户之间的相似度矩阵。
计算拉普拉斯矩阵：利用scipy.sparse.csgraph库计算标准化的拉普拉斯矩阵。
特征分解：对拉普拉斯矩阵进行特征值分解，选取前2个特征向量用于后续的K均值聚类。
K均值聚类：对特征向量进行K均值聚类，识别出3个社交社区，并通过散点图进行可视化。

案例2：图像分割

案例描述：在图像处理领域，图像分割是一项重要任务。通过谱聚类，我们可以基于像素之间的相似度对图像进行分割，得到不同区域的边界。谱聚类适用于图像中不同区域具有不同颜色或纹理的情况。

案例分析：图像的每个像素可以视为图中的一个节点，像素之间的相似度可以通过颜色差异或位置关系来衡量。通过谱聚类，我们可以将图像分成不同的区域，进而进行图像分割。

算法步骤：

数据准备：读取图像并将其转换为像素特征矩阵。
构建相似度矩阵：计算像素之间的相似度，通常使用高斯核函数。
构建拉普拉斯矩阵：基于相似度矩阵，构建拉普拉斯矩阵。
特征分解与聚类：通过谱分解选择特征向量，并使用K均值算法进行聚类，得到不同区域。

Python代码：

import numpy as np
import cv2
from sklearn.cluster import KMeans
from sklearn.metrics.pairwise import rbf_kernel
import matplotlib.pyplot as plt

# 读取图像并转换为灰度图
image = cv2.imread('example_image.jpg')
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
height, width, channels = image.shape

# 将图像展平成二维数组（每个像素为一个数据点）
pixels = image.reshape(-1, 3)

# 计算相似度矩阵（使用RBF内核）
gamma = 1.0 / (3 * np.std(pixels) ** 2)  # RBF核的宽度
similarity_matrix = rbf_kernel(pixels, gamma=gamma)

# 计算拉普拉斯矩阵
laplacian_matrix, _ = laplacian(similarity_matrix, normed=True, return_diag=True)

# 计算拉普拉斯矩阵的特征值和特征向量
eigvals, eigvecs = np.linalg.eigh(laplacian_matrix)

# 选择前2个特征向量进行聚类
X = eigvecs[:, :2]

# 使用K均值算法对特征向量进行聚类
kmeans = KMeans(n_clusters=3)
clusters = kmeans.fit_predict(X)

# 将聚类结果映射回图像的像素空间
segmented_image = clusters.reshape(height, width)

# 可视化图像分割结果
plt.figure(figsize=(10, 6))
plt.imshow(segmented_image, cmap='viridis')
plt.title('Image Segmentation using Spectral Clustering')
plt.axis('off')
plt.show()

代码解析：

读取图像与数据预处理：首先，我们使用OpenCV库读取图像，并将其转换为RGB格式。接着将图像数据展平成一个二维数组，每一行代表一个像素的RGB值。
计算相似度矩阵：使用径向基核函数（RBF kernel）计算像素之间的相似度。RBF核的宽度（即 gamma）与像素值的标准差相关，这确保了相似度度量符合图像的局部结构。
计算拉普拉斯矩阵与特征分解：利用拉普拉斯矩阵进行谱分解，并选取前两个特征向量作为聚类的输入。
K均值聚类：应用K均值聚类对这些特征向量进行聚类，从而将图像分割成三个不同的区域。
可视化结果：将聚类结果转换为与原图像相同大小的矩阵，并使用matplotlib显示分割后的图像。

通过这个示例，我们可以将图像的每个像素视为一个节点，谱聚类将根据像素之间的相似性进行图像分割，识别出图像中的不同区域。这个方法对于复杂图像的分割（尤其是图像边界模糊或存在纹理的图像）非常有效。

案例3：推荐系统中的用户分群

案例描述：在推荐系统中，通常需要对用户进行分群，以便更好地理解他们的行为特征，并提供个性化的推荐。谱聚类可以帮助我们发现用户之间的潜在关系，并基于用户的兴趣进行分群。

案例分析：假设我们有一个电商平台的用户行为数据，包括浏览的商品类别、购买频率、浏览时间等信息。通过谱聚类，我们可以根据用户行为将他们分为不同的群体。每个群体代表了一个特定的用户群体，平台可以针对不同群体推出定制化的营销策略和推荐算法。

算法步骤：

数据准备：收集并整理用户的行为数据。
构建相似度矩阵：计算用户之间的相似度，通常使用余弦相似度或基于行为的相似度度量。
构建拉普拉斯矩阵：通过相似度矩阵构建拉普拉斯矩阵，反映用户之间的关系。
特征分解与聚类：对拉普拉斯矩阵进行特征分解，选择前k个特征向量，并使用K均值算法对这些特征向量进行聚类，得到不同的用户群体。

Python代码：

import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.metrics.pairwise import cosine_similarity
from scipy.sparse.csgraph import laplacian
import matplotlib.pyplot as plt

# 模拟用户行为数据：假设有50个用户和5个商品类别的评分数据
np.random.seed(42)
user_data = np.random.rand(50, 5)  # 50个用户，5个商品类别的评分数据

# 计算用户之间的相似度（余弦相似度）
similarity_matrix = cosine_similarity(user_data)

# 计算拉普拉斯矩阵
laplacian_matrix, _ = laplacian(similarity_matrix, normed=True, return_diag=True)

# 计算拉普拉斯矩阵的特征值和特征向量
eigvals, eigvecs = np.linalg.eigh(laplacian_matrix)

# 选择前2个特征向量进行聚类
X = eigvecs[:, :2]

# 使用K均值算法对特征向量进行聚类
kmeans = KMeans(n_clusters=3)
clusters = kmeans.fit_predict(X)

# 可视化用户分群结果
plt.scatter(range(50), np.zeros(50), c=clusters, cmap='viridis')
plt.title('User Clustering for Recommendation System')
plt.xlabel('Users')
plt.ylabel('Cluster')
plt.show()

代码解析：