数学建模学习-谱聚类(Spectral Clustering)教程(30) 半月型数据集同心圆数据集-优快云博客

本文链接：https://blog.youkuaiyun.com/FFMXjy/article/details/145246432

数学建模学习-谱聚类(Spectral Clustering)教程(30)

写在最前

注意本文的相关代码及例子为同学们提供参考，借鉴相关结构，在这里举一些通俗易懂的例子，方便同学们根据实际情况修改代码，很多同学私信反映能否添加一些可视化，这里每篇教程都尽可能增加一些可视化方便同学理解，但具体使用时，同学们要根据实际情况选择是否在论文中添加可视化图片。

系列教程计划持续更新，同学们可以免费订阅专栏，内容充足后专栏可能付费，提前订阅的同学可以免费阅读，同时相关代码获取可以关注博主评论或私信。

算法简介

谱聚类（Spectral Clustering）是一种基于图论的聚类算法，它利用数据点之间的相似性来进行聚类。与传统的聚类算法（如K-means）相比，谱聚类能够识别出任意形状的簇，并且对于非凸数据集的聚类效果特别好。该算法通过将数据转换到特征空间，利用图的拉普拉斯矩阵的特征向量来降维，然后在低维空间中进行聚类。

算法特点

非线性分离能力：能够处理非线性可分的数据集，如同心圆、螺旋形等复杂形状。
数学理论基础扎实：基于图论和矩阵理论，具有良好的理论支撑。
参数相对较少：主要参数是聚类数量和相似度度量方式。
计算复杂度较高：需要计算特征值和特征向量，对于大规模数据集计算开销较大。
对噪声相对敏感：需要合理选择相似度度量方式和参数。

算法原理

谱聚类的基本步骤如下：

构建相似度矩阵：
- 计算数据点之间的相似度（常用高斯核函数）
- 构建邻接矩阵W
计算拉普拉斯矩阵：
- 度矩阵D： $D_{ii} = \sum_{j} W_{ij}$
- 未归一化拉普拉斯矩阵： $L = D - W$
- 归一化拉普拉斯矩阵： $L_{sym} = D^{-1/2}LD^{-1/2}$
特征分解：
- 计算拉普拉斯矩阵的特征值和特征向量
- 选取最小的k个特征值对应的特征向量
降维聚类：
- 使用选取的特征向量构建新的特征矩阵
- 对新特征矩阵进行K-means聚类

环境准备

首先需要安装必要的Python包：

numpy>=1.21.0
scipy>=1.7.0
scikit-learn>=0.24.2
matplotlib>=3.4.2
pandas>=1.3.0

可以使用pip安装：

pip install -r requirements.txt

代码实现

我们将通过两个示例来展示谱聚类的效果：半月形数据集和同心圆数据集。

数据生成

def generate_data():
    """生成示例数据集"""
    # 生成两个半月形数据集
    n_samples = 200
    X1, y1 = make_moons(n_samples=n_samples, noise=0.1)
    
    # 生成同心圆数据集
    X2, y2 = make_circles(n_samples=n_samples, noise=0.05, factor=0.5)
    
    return X1, y1, X2, y2

可视化函数

def plot_clusters(X, labels, title, filename):
    """绘制聚类结果"""
    plt.figure(figsize=(8, 6))
    plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
    plt.colorbar(label='聚类标签')
    plt.title(title)
    plt.xlabel('X轴')
    plt.ylabel('Y轴')
    plt.savefig(f'images/{filename}.png')
    plt.close()

主函数实现

def main():
    # 生成数据
    X1, y1, X2, y2 = generate_data()
    
    # 对半月形数据进行谱聚类
    sc1 = SpectralClustering(n_clusters=2, affinity='nearest_neighbors',
                            assign_labels='kmeans', random_state=42)
    labels1 = sc1.fit_predict(X1)
    plot_clusters(X1, labels1, '半月形数据的谱聚类结果', 'moons_clustering')
    
    # 对同心圆数据进行谱聚类
    sc2 = SpectralClustering(n_clusters=2, affinity='nearest_neighbors',
                            assign_labels='kmeans', random_state=42)
    labels2 = sc2.fit_predict(X2)
    plot_clusters(X2, labels2, '同心圆数据的谱聚类结果', 'circles_clustering')
    
    # 比较不同亲和度矩阵的效果
    affinities = ['rbf', 'nearest_neighbors']
    for affinity in affinities:
        sc = SpectralClustering(n_clusters=2, affinity=affinity,
                               assign_labels='kmeans', random_state=42)
        labels = sc.fit_predict(X1)
        plot_clusters(X1, labels, 
                     f'使用{affinity}亲和度矩阵的谱聚类结果',
                     f'affinity_{affinity}')