谱聚类（Spectral Clustering）1——算法原理

谱聚类详解

最新推荐文章于 2025-09-20 13:33:48 发布

原创

最新推荐文章于 2025-09-20 13:33:48 发布 · 2.1k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #聚类 #机器学习

本文深入讲解谱聚类算法，包括其基本概念、不同类型的谱聚类算法及其背后的数学原理，并探讨了从图形切割角度理解算法的方法。

简介

聚类（Clustering）是数据分析中最为广泛使用的技术之一，其广泛应用于统计学、计算机科学、生物、社会科学等。本文主要介绍一类重要的聚类算法，谱聚类（Spectral Clustering）。

谱聚类的主要思想是把所有的数据看做空间中的点。给定这些数据点之间的相似性度量，那么我们就可以构造一张相似图：如果两个点之间相似度为正（或者大于一定门限），那么它们之间就有边相连，且将其设置为边的权重。通过对相似图进行切割，让切割后不同子图之间边的权重之和尽可能低（意味着分属不同簇的点之间尽可能地不相似），而子图内边的权重之和尽可能地高（意味着同属同一簇的点之间尽可能地相似），从而达到聚类的目的。

相比传统的聚类算法，如k-means，谱聚类更容易实现，可以利用标准的线性代数软件高效求解，且往往效果更好。

1. 准备工作

在正式介绍谱聚类算法之前，我们需要一些必要的准备工作，以帮助我们更好地理解谱聚类算法及其背后的原理。我们先介绍图相关的一些基本概念和重要性质，然后介绍如何将数据点与图结合起来。

1.1 邻接矩阵

给定一个无向图 $G = (V, E)$ ，其中 $V=\left\{ v_1,\cdots,v_n\right\}$ 是顶点的集合。我们用 $W$ 表示其邻接矩阵（Adjacency Matrix），其中
$w_{i,j} = \left\{ \begin{aligned} &1~\text{或权值}&,&~\text{if}~(v_i,v_j) \in E \\ &0&,&~\text{otherwise} \end{aligned} \tag{1-1-1} \right.$
也就是说，如果顶点 $v_i$ 和顶点 $v_j$ 之间有边连接， $w_{i,j}$ 等于1（不加权的图）或者等于该边上的权值（加权图）；反之，如果顶点 $v_i$ 和顶点 $v_j$ 之间没有边连接， $w_{i,j}$ 等于0。需要注意的是，因为图 $G$ 是一个无向图，所以 $w_{i,j}=w_{j,i}$ ，即 $W$ 是一个对称矩阵。

1.2 度矩阵

给定一个无向图 $G = (V, E)$ ，我们用 $D$ 表示其度矩阵（Degree Matrix），其中
$d_{i,j} = \left\{ \begin{aligned} &\sum_{j=1}^{n} w_{i,j}&,&~\text{if}~i=j \\ &0&,&~\text{otherwise} \end{aligned} \tag{1-2-1} \right.$
为方便起见，我们将 $d_{i,i}$ 记作 $d_i$ 。从上式可以看出，度矩阵 $D$ 是一个对角矩阵，即
$\begin{bmatrix} d_1 &0&\cdots& 0 \\ 0&d_2&\cdots& 0 \\ \vdots &\vdots & \ddots& \vdots \\ 0 & 0 & \cdots & d_n \end{bmatrix} \tag{1-2-2}$

1.3 拉普拉斯矩阵

1.3.1 非归一化拉普拉斯矩阵

非归一化拉普拉斯矩阵（Unnormalized Laplacian Matrix）的定义为 $\tag{1-3-1}$ 非归一化拉普拉斯矩阵 $L$ 有很多重要的性质：
（1）对任意向量 $\in \mathbb{R}^{n}$ ，我们有 $f^{T}Lf = \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j}(f_i-f_j)^2 \tag{1-3-2}$ （2） $L$ 是对称半正定矩阵
（3） $L$ 的最小特征值为0，其对应的特征向量为向量 $\mathbb{1}=[1,\cdots,1]^{T}$
（4） $L$ 有 $n$ 个非负的实数值特征值，即 $0=\lambda_1 \leq \lambda_2 \leq \cdots \lambda_n$

证明：
（1）
$\begin{aligned} f^{T}Lf & = f^{T}Df - f^{T}Wf \\ & = \sum_{i=1}^{n} d_i f_{i}^2 - \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j} f_{i} f_{j} \\ & = \frac{1}{2} \left( \sum_{i=1}^{n} d_i f_{i}^2 - 2 \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j} f_{i} f_{j} + \sum_{j=1}^{n} d_j f_{j}^2 \right) \\ & = \frac{1}{2} \left( \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j} f_{i}^2 - 2 \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j} f_{i} f_{j} + \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j} f_{j}^2 \right) \\ & = \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j}(f_i-f_j)^2 \end{aligned} \tag{1-3-3}$

（2）因为 $D$ 和 $W$ 都是对称矩阵，所以 $L$ 也是对称矩阵。因为对于任意的向量 $\in \mathbb{R}^{n}$ ，我们都有 $f^{T}Lf = \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j}(f_i-f_j)^2 \geq 0$ ，所以 $L$ 是半正定矩阵。

（3）：因为 $L$ 是对称半正定矩阵，所以其特征值非负。很显然， $\mathbb{1} = D \mathbb{1} - W \mathbb{1} = 0 \mathbb{1}$ ，所以0是 $L$ 的最小特征值， $\mathbb{1}$ 为其对应的特征向量。
（4）：由（1）-（3）可得。

1.3.2 归一化拉普拉斯矩阵

归一化拉普拉斯矩阵（Normalized Laplacian Matrix）的定义一般有两种：
$L_{\rm sym} = D^{-1/2} L D^{-1/2} = I-D^{-1/2}WD^{-1/2} \tag{1-3-4}$ $L_{\rm rw} = D^{-1}L = I-D^{-1}W \tag{1-3-5}$ 其中 $L_{\rm sym}$ 是一个对称矩阵， $L_{\rm rw}$ 和随机游走（Random Walk）密切相关（ $L_{\rm rw}$ 不再是一个对称阵）。

和非归一化拉普拉斯矩阵 $L$ 一样，归一化拉普拉斯矩阵 $L_{\rm sym}$ 和 $L_{\rm rw}$ 有着和非归一化拉普拉斯矩阵 $L$ 类似的重要性质：
（1）：对任意向量 $\in \mathbb{R}^{n}$ ，我们有 $f^{T}L_{\rm sym}f = \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} w_{i,j} \left(\frac{f_i}{\sqrt{d_i}}-\frac{f_j}{\sqrt{d_j}} \right)^2 \tag{1-3-6}$