深度理解谱聚类

最新推荐文章于 2025-08-05 19:50:13 发布

原创最新推荐文章于 2025-08-05 19:50:13 发布 · 740 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#聚类 #算法 #数据挖掘 #机器学习

图像处理专栏收录该内容

2 篇文章

订阅专栏

谱聚类

图的邻接矩阵与加权度矩阵
- 图的邻接矩阵
- 图的加权度矩阵
拉普拉斯矩阵
- 拉普拉斯矩阵推导
- 拉普拉斯矩阵的性质
谱聚类--拉普拉斯矩阵

图的邻接矩阵与加权度矩阵

图的邻接矩阵

在数据结构的图论里面，一个图 $G$ 由顶点和边组成，我们通常将顶点的集合记做 $V$ ，边的集合记做 $E$ ，即 $G (V, E)$ ，其中 $V$ 即为我们数据集里所有的点的集合 $(v_1,v_2,\cdots,v_n)$ 。对于 $V$ 中任意的两个点，都可以有边连接，也可以没有，我们定义 $w_{ij}$ 为点 $v_i$ 和点 $v_j$ 之间连接边的权重。邻接矩阵即为 $W$ ，若两个点之间没有边，则在邻接矩阵中对应的元素为0，由于我们使用的是无向图所以，邻接矩阵 $W$ 为对称矩阵。

比如下面这个无向图

它的邻接矩阵即为
$\left[ \begin{matrix} 0 & 2 & 0 & 0 & 0& 5 & 0 \\ 2 & 0 & 4 & 3 & 0 & 0 & 0 \\ 0 & 4 & 0 & 4 & 0 & 0 & 0 \\ 0 & 3 & 4 & 0 & 4 & 0 & 2 \\ 0 & 0 & 0 & 4 & 0 & 0 & 0 \\ 5 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 2 & 0 & 0 & 0 \\ \end{matrix} \right]$

图的加权度矩阵

对于无向图，一个顶点的加权度 $d_i$ 即为与该顶点相连的所有边的权重之和。无向图的邻接矩阵为 $W$ 则其顶点 $v_i$ 的加权度为邻接矩阵的第 $i$ 行的元素之和
$d_i=\sum_{j=1}^{n} W_{ij}$
利用每个节点度的定义，我们可以得到一个 $\times n$ 的加权度矩阵 $D$ ，它是一个对角矩阵。只有主对角线上有值，其第 $i$ 行对应着第 $i$ 个节点的加权度 $d_i)$ ，其他位置均为0，定义如下：
$\begin{pmatrix} d_1&\cdots&\cdots\\ \cdots&d_2&\cdots\\ \vdots&\vdots&\ddots\\ \cdots&\cdots&d_n\\ \end{pmatrix}$

拉普拉斯矩阵

拉普拉斯矩阵推导

我们先直接给出拉普拉斯虎阵的定义：
$L = D - W$
其中 $D$ 和 $W$ 分别为我们上面所说的加权度矩阵与邻接矩阵

那么这拉普拉斯矩阵究竟从何而来，我们可以做如下推导

我们假设每一个顶点都是一个 $N$ 维的向量，并每一个顶点 $i$ 都有一个函数值 $f_i$ 。
对顶点 $i$ 进行扰动，它可能变为任意一个与它相邻的节点 $j$ $(j\in N_i)$ ， $N_i$ 表示与节点 $i$ 相邻节点（即有边相连的节点）

在之前文章介绍的拉普拉斯算子的时候，我们可以知道拉普拉斯算子可以计算一个点到它所有自由度上微小扰动的增益，在图上表现为任意一个节点 $j$ 变化到节点 $i$ 所带来的增益。
现在我们假设图上所有边的权值都为1，则有：
$\Delta f_i=\sum_{j\in N_i}(f_i-f_j)$
当每一条边都有对应的权重时，则为：
$\Delta f_i=\sum_{j\in N_i}{w_{ij}}(f_i-f_j)$
我们在介绍邻接矩阵的时候如果两个点 $i, j$ 不相邻时，定义其 $w_{ij}=0$ ，所以上式可以简化为：
$\Delta f_i=\sum_{j\in N}{w_{ij}}(f_i-f_j)$

我们可以继续推导：
$\begin{aligned} \Delta f_i&=\sum_{j\in N}{w_{ij}}(f_i-f_j) \\ &=\sum_{j\in N}w_{ij}{f_i}-\sum_{j\in N}w_{ij}{f_j} \\ &=d_if_i-W_i \boldsymbol{f} \end{aligned}$
其中 $\sum_{j\in N}w_{ij}=d_i$ ， $\boldsymbol{f}$ 表示所有顶点（假设有 $N$ 个顶点）函数值的 $\times 1$ 的向量
而对于所有的 $N$ 个节点则有：
$\begin{aligned} \Delta f&= \begin{pmatrix} \Delta f_1\\ \vdots\\ \Delta f_N \end{pmatrix}\\ &= \begin{pmatrix} d_1 f_1-W_1\boldsymbol{f}\\ \vdots\\ d_N f_N-W_N\boldsymbol f \end{pmatrix}\\ &= \begin{pmatrix} d_1&\cdots&0\\ \vdots&\ddots&\vdots\\ 0&\cdots&d_N\\ \end{pmatrix}\boldsymbol{f}-\begin{pmatrix}W_1\\\vdots\\W_N\end{pmatrix}\boldsymbol{f}\\ &=diag(d_i)\boldsymbol{f}-W\boldsymbol{f}\\ &=(D-W)\boldsymbol{f}\\ &=L\boldsymbol{f} \end{aligned}$
这里的 $(D - W)$ 实际上就是我们所说的拉帕拉斯矩阵 $L$

拉普拉斯矩阵的性质

**性质(1)：**对于任一向量 $\boldsymbol{f}\in{\mathbb{R}^n}$ 都有
$\boldsymbol{f}^T L \boldsymbol{f}=\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}w_{ij}{(f_i-f_j)^2}$
**性质(2)：**拉普拉斯矩阵是对称半正定矩阵
**性质(3)：**拉普拉斯矩阵的最小特征值为0，其对应特征向量为常向量 $\mathbf 1$
**性质(4)：**拉普拉斯矩阵有 $n$ 个非负实数特征值，并且满足
$0=\lambda_1\leq\lambda_2\leq\cdots\leq\lambda_n$

证明：

$\begin{aligned} \boldsymbol{f}^T L \boldsymbol{f}&=\boldsymbol{f}^T D \boldsymbol{f}-\boldsymbol{f}^T W \boldsymbol{f}\\ &=\sum_{i=1}^{n}d_{ii}{f_i}^2-\sum_{i=1}^{n}\sum_{j=1}^{n}f_if_jw_{ij}=\frac{1}{2}\begin{pmatrix}2\sum_{i=1}^{n}d_{ii}{f_i}^2-2\sum_{i=1}^{n}\sum_{j=1}^{n}f_if_jw_{ij}\end{pmatrix}\\ &=\frac{1}{2}\begin{pmatrix}\sum_{i=1}^{n}d_{ii}{f_i}^2-2\sum_{i=1}^{n}\sum_{j=1}^{n}f_if_jw_{ij}+\sum_{i=1}^{n}d_{ii}{f_i}^2\end{pmatrix}\\ &=\frac{1}{2}\begin{pmatrix}\sum_{i=1}^{n}\sum_{j=1}^{n}w_{ij}{f_{i}}^2-2\sum_{i=1}^{n}\sum_{j=1}^{n}f_if_jw_{ij}+\sum_{j=1}^{n}\sum_{i=1}^{n}w_{ji}{f_{j}}^2\end{pmatrix}\\ &=\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}w_{ij}{(f_i-f_j)^2} \end{aligned}$
因此性质(1)成立，而且根据性质(1)有：
$\boldsymbol{f}^T L \boldsymbol{f}=\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}w_{ij}{(f_i-f_j)^2}\geq0$
因此性质(2)成立，即拉普拉斯矩阵是半正定的
(根据半正定矩阵的定义：设A是实对称矩阵。如果对任意的是非零列矩阵 $X$ 有 $X^TAX\geq0$ 就称 $A$ 为半正定矩阵)

由于：
$|L-0\cdot I|=|L|=|D-W|=$

$\begin{aligned}\begin{vmatrix} \sum_{j=1}^{n}w_{1j}-w_{11}&-w_{12}&\cdots&w_{1n}\\ -w_{21}&\sum_{j=1}^{n}w_{2j}-w_{22}&\cdots&-w_{2n}\\ \vdots&\vdots&\vdots&\ddots\\ -w_{n1}&-w_{n2}&\cdots&\sum_{j=1}^{n}w_{nj}-w_{nn} \end{vmatrix}=\begin{vmatrix} \sum_{j=1,j\neq1}^{n}w_{1j}&-w_{12}&\cdots&w_{1n}\\ -w_{21}&\sum_{j=1,j\neq2}^{n}w_{2j}&\cdots&-w_{2n}\\ \vdots&\vdots&\vdots&\ddots\\ -w_{n1}&-w_{n2}&\cdots&\sum_{j=1,j\neq n}^{n}w_{nj} \end{vmatrix}\end{aligned}$
将上面的行列式的第 $2\sim n$ 列依次加到第一列，则第一列的值全为0
$\begin{aligned}\begin{vmatrix} \sum_{j=1,j\neq1}^{n}w_{1j}&-w_{12}&\cdots&w_{1n}\\ -w_{21}&\sum_{j=1,j\neq2}^{n}w_{2j}&\cdots&-w_{2n}\\ \vdots&\vdots&\ddots&\vdots\\ -w_{n1}&-w_{n2}&\cdots&\sum_{j=1,j\neq n}^{n}w_{nj} \end{vmatrix}&=\begin{vmatrix} \sum_{j=1,j\neq1}^{n}w_{1j}-w_{12}\cdots&w_{1n}&-w_{12}&\cdots&w_{1n}\\ -w_{21}\sum_{j=1,j\neq2}^{n}w_{2j}\cdots-w_{2n}&\sum_{j=1,j\neq2}^{n}w_{2j}&\cdots&-w_{2n}\\ \vdots&\vdots&\ddots&\vdots\\ -w_{n1}&-w_{n2}&\cdots&\sum_{j=1,j\neq n}^{n}w_{nj} \end{vmatrix}\\ &=\begin{vmatrix} 0&-w_{12}&\cdots&w_{1n}\\ 0&\sum_{j=1,j\neq2}^{n}w_{2j}&\cdots&-w_{2n}\\ \vdots&\vdots&\ddots&\vdots\\ 0&-w_{n2}&\cdots&\sum_{j=1,j\neq n}^{n}w_{nj} \end{vmatrix}\end{aligned}$
因此行列式|L|值为|0|，所以|0|是其特征值。如果 $\boldsymbol{f}=\mathbf1$ ，则有
$L\boldsymbol{f}=L\mathbf 1=(D-W)\mathbf 1=(d_{11}\cdots d_{nn})^T-\begin{pmatrix}\sum_{j=1}^{n}w_{1j}\cdots\sum_{j=1}^{n}w_{nj}\end{pmatrix}^T=\mathbf 0$

因此 $\mathbf 1$ 是对应的特征向量，由于拉普拉斯矩阵半正定，其特征值非负，所以性质(3)成立，再根据性质(2)和性质(3)，可以得到性质(4)

谱聚类–拉普拉斯矩阵

说起聚类我们第一直觉就是想到经典的无监督学习方法–K-Means聚类，但它只能在线性可分的类别上有很好的效果。
而对于一些非凸的图像就很难有效果，比如说下图，如果我们使用K-means会有如下效果：

moons_对比

对于处理这种数据，有很多算法被提出用来解决此类非凸数据，最经典的核聚类就是首先将数据点映射到高维空间上，这样本来在低维空间上线性不可分的点就线性可分了（至少效果相比在低维空间上更好了)因为高维空间上的数据点变得稀疏，分布的比较开，而且很多会集中在角落里。

而谱聚类对于处理这种非凸的数据也有很好的效果，其主要思想就是把所有的数据看作为空间上的点，这些点可以用变连接起来。距离较远的两个点的权重值较低，而距离较近的两个点之间的权重值较高，通过对所有数据点组成的图进行切图，让切图后的不同子图之间的权重尽可能的低，而子图内部的边权重尽可能的高，从而达到聚类的目的。

我们从谱聚类的原理来看，它似乎也只是根据距离来判断是否数据一类，那么它与K-means聚类可以说是相似的，那么为什么它可以用来处理非凸数据呢。

原因： 其主要原因就是我们在构造拉普拉斯矩阵的过程中，因为需要构造 $\color{red}{邻接矩阵}$ ，因此在使用拉普拉斯矩阵 $L$ 从本质上来讲就已经把数据从笛卡尔坐标系转化到了另一个 $\color{red}{相似度空间}$ （点与点的相似度）上，也就是说将原来的数据映射到了另一个新的坐标系当中，在这个新的坐标系中包含了点与点之间的相似度信息，这种映射是非线性，因此可以达到与核聚类一样的处理线性不可分的聚类效果

已经说了这么多，那么这拉普拉斯矩阵是怎么和谱聚类扯上关系的呢，为什么最后的聚类的对象变成了归一化后的拉普拉斯矩阵的前 $k$ 个最小特征值对应的特征向量 $f$ 所构成的特征向量矩阵 $F$
别着急，我们一点点层层递进的来说。上面已经说了构造邻接矩阵可以对数据起到了一个映射的作用，下面我们就来说说怎么对数据点构造邻接矩阵

邻接矩阵的构造

它是由任意两点之间的权重值 $w_{ij}$ 组成的矩阵。一般的图里我们可以直接自己输入权重，但在谱聚类里，我们只有数据点，并没有直接给出点与点之间的边的权重，更没有邻接矩阵，那么我们该如何找到这个邻接矩阵呢。
基本思想就是，距离较远的两个点权重值低，距离近的两个点权重值高，我们旭阳给权重值定量，可以通过样本点的距离度量的相似矩阵来获得邻接矩阵 $W$ 。
构造邻接矩阵的方法有三类： $\epsilon-\text{邻近法}$ ， $K$ 邻近法和全连接发，我们逐个介绍

$\epsilon-\text{邻近法}$

对于 $\epsilon-\text{邻近法}$ ，他设置了一个距离阈值 $\epsilon$ ，然后用欧氏距离 $s_{ij}$ 度量任意两点 $x_i$ 和 $s_j$ 的距离。即相似矩阵的
$s_{ij}={\|x_i-x_j\|^{2}_{2}}$ ，然后根据 $s_{ij}$ 和 $\epsilon$ 的大小关系，来定义邻接矩阵 $W$ ，如下：
$W_{ij}=\left\{ \begin{matrix} 0 & s_{ij}>\epsilon \\ \epsilon & s_{ij}\leq\epsilon \end{matrix} \right.$
从上式可以看出两点之间的权重要么是 $\epsilon$ 要么就是0，除此之外便没有其他信息了。距离远近度量不精确，含有的信息少，因此很少使用

$K$ 邻近法

利用KNN算法遍历所有的样本点，取每个样本最近的k个点作为近邻点，只有样本距离最近的k个点之间才会有 $w_{ij}>0$ 。但是这种方法会造成所构造的邻接矩阵非对称（比如说A点的前k个邻近点有B，但B的前k个邻近点里不一定有A），而我们需要对称的邻接矩阵，为解决该问题我们有两种方法，如下

第一种是两个点中，只要其中一点在另一个点的前k个邻近中，就保留 $S_{ij}$
$W_{ij}=W_{ji}=\left\{ \begin{matrix} 0 & x_i\not\in KNN(x_j) and x_j\not\in KNN(x_i)\\ exp^{\big(-\frac{{\|x_i-x_j\|^{2}_{2}}}{2\sigma^2}\big)} & x_i\in KNN(x_j) or x_j \in KNN(x_i) \end{matrix} \right.$
第二种是两个点必须都在各自的前k个邻近中才保留 $S_{ij}$
$W_{ij}=W_{ji}=\left\{ \begin{matrix} 0 & x_i\not\in KNN(x_j) or x_j\not\in KNN(x_i)\\ exp^{\big(-\frac{{\|x_i-x_j\|^{2}_{2}}}{2\sigma^2}\big)} & x_i\in KNN(x_j) and x_j \in KNN(x_i) \end{matrix} \right.$

全连接法

该方法顾名思义，全连接，所有点的权重值都大于0。
我们可以选择不同的核函数来定义边权重，比如常用的多项式核函数，高斯核函数(RBF)和Sigmoid函数，最常用的是高斯核函数(RBF)，此时相似矩阵和邻接矩阵相同
$W_{ij}=S_{ij}=exp^{\big(-\frac{{\|x_i-x_j\|^{2}_{2}}}{2\sigma^2}\big)}$
在实际的应用中，我们常使用全连接法来构造邻接矩阵，全连接法内常使用高斯核函数(RBF)。

谱聚类之切图聚类

假设对于一个图，我们想将其划分为两个部分，定义 $cut(A,B)=\sum_{i\in A,j\in B}w_{ij}$ 最小。当图中有 $N$ 个节点，并划分为 $k$ 个类别时，我们希望
$cut(A_1,A_2...,A_N)=\sum_{i=1}^kW(A_{i},\bar{A}_i)$
这样的图划分问题被称为最小割问题，然而在实际应用中该方法并不能很好的实现划分，这是因为仅仅依赖最小割的划分方法的话，很容易将图中孤立的节点划分为一类。
我们从公式上来看， $cut(A,B)=\sum_{i\in A,j\in B}w_{ij}$ 实际上是与两个字图之间连接边的数量成正相关的，也就是说连接的边数越多，该值越大。所以在图划分时，任何一个对孤立节点的划分都会小于该节点所在类的一个更大的子图的划分 $c u t$ 值，所以在该目标函数下容易产生孤立点的划分结果
为了避免最小切图导致的切分效果不佳，我们需要对每个子图的规模作出限定，后面我们介绍两种切图方式，第一种是 $R a t i o C u t$ ，第二种是 $N c u t$

$R a t i o C u t$ 切图

$R a t i o C u t$ 切图对于每一个切图不仅仅考虑到最小化 $cut(A_1,A_2...,A_N)$ ，同时也考虑到最大化每个子图点的个数（ $A_i|$ 表示子图 $A_i$ 里点的个数），即：
$RatioCut(A_1,A_2,...,A_k)=\frac{1}{2}\sum_{i=1}^k\frac{W(A_i,\bar A_i)}{|A_i|}$

先考虑 $k = 2$ 的 $R a t i o C u t$ 切图

我们假设 $k = 2$ 来初步分析，我们要解决优化问题
$min_{A\subset V}RatioCut(A,\bar A)$
我们定义指示向量 $\boldsymbol f=(f_1,...,f_n)^T\in \mathbb{R}$
$f_i=\left\{ \begin{matrix} \sqrt{\frac{|\bar A|}{|A|}} & {if} v_i \in {A}\\ -\sqrt{\frac{|A|}{|\bar A|}} & {if} v_i \in {\bar A} \end{matrix} \right.$
此时对于未正则化的拉普拉斯矩阵 $L$ 有
$\boldsymbol f^TL\boldsymbol f=\frac{1}{2}\sum_{i,j=1}^{n}w_{ij}(f_i-f_j)^2$
注意到 $f_i$ 的特性，属于同一类的 $f_i,f_j$ 可以互相抵消，可得
$\begin{aligned} \boldsymbol f^TL\boldsymbol f&=\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^nw_{ij}(f_i-f_j)^2\\ &=\frac{1}{2}\sum_{v_i\in A,v_j\in \bar A}w_{ij}\big(\sqrt{\frac{|\bar A|}{|A|}}+\sqrt{\frac{|A|}{|\bar A|}}\big)^2+\frac{1}{2}\sum_{v_i\in \bar A,v_j\in A}w_{ij}\big(-\sqrt{\frac{|\bar A|}{|A|}}-\sqrt{\frac{|A|}{|\bar A|}}\big)^2\\ &=cut(A,\bar A)\big(\frac{|\bar A|}{|A|}+\frac{|A|}{|\bar A|}+2\big)\\ &=cut(A,\bar A)\big(\frac{|\bar A|+|A|}{|A|}+\frac{|A|+|\bar A|}{|\bar A|}\big)\\ &=|V|cut(A,\bar A)\big(\frac{1}{|A|}+\frac{1}{|\bar A|}\big)\\ &=|V|RatioCut(A,\bar A)\\ \end{aligned}$
同时对于 $f_i$ 我们有
$\sum_{i=1}^nf_i=\sum_{i\in A}\sqrt{\frac{|\bar A|}{|A|}}+\sum_{i\in \bar A}-\sqrt{\frac{|A|}{|\bar A|}}=|A|\sqrt{\frac{|\bar A|}{|A|}}-{|\bar A|}\sqrt{\frac{|A|}{|\bar A|}}=0$
有上式我们还可以知道 $\boldsymbol f \bot \mathbf{1}$
同时我们可以发现 $\boldsymbol f^T\boldsymbol f$ 内积是一个常数。
$\boldsymbol f^T\boldsymbol f=\sum_{i=1}^n {f_i}{f_j}=\sum_{v_i\in A}\frac{|\bar A|}{|A|}+\sum_{v_i\in \bar A}\frac{|A|}{|\bar A|}={|A|}\frac{|\bar A|}{|A|}+{|\bar A|}\frac{|A|}{|\bar A|}=|V|=n$
其中 $n$ 表示所有点的个数

下面我们可以将 $R a t i o C u t$ 目标函数进行转化，如下：
$\underset{A\subset V}{min}\:RatioCut(A,\bar A)\Leftrightarrow{\underset{A\subset V}{min}\: \boldsymbol f^TL\boldsymbol f\\ s.t. \boldsymbol f \bot \mathbf{1},|\boldsymbol f|=\sqrt{n}}$
此时我们需要求解的向量 $\boldsymbol f$ 任然是一个二值向量，因此它是一个NP_hard问题，假设 $\boldsymbol f$ 是n维的，就有 $2^n$ 个取值，如果有k个子图的话，就有k个指示向量，有 $k2^n$ 种取值，这非常难求解，那么对于这种问题我们可以将其 $\color{red}{松弛化}$ ，将这种离散问题转化为 $\color{red}{连续问题}$ ，让解向量 $\boldsymbol f$ 里的值不仅仅只有两个取值，而是可取实数域 $\mathbb{R}$ 中的任意值。这样我们便将离散问题松弛为了连续问题了
${\underset{f\in {\mathbb{R}}^n}{min} \boldsymbol f^TL\boldsymbol f\\ s.t. \boldsymbol f \bot \mathbf{1},|\boldsymbol f|=\sqrt{n}}$

对于上述的有约束问题我们可以利用拉格朗日乘子将其转化为无约束问题，如下：
$\begin{aligned} L(\boldsymbol f,\lambda)&={\boldsymbol f^T L\boldsymbol f}-{\lambda(\boldsymbol f^T\mathbf{1})}-{\lambda({\boldsymbol f^T\boldsymbol f}-n)}\\ &={\boldsymbol f^T L\boldsymbol f}-{\lambda({\boldsymbol f^T\boldsymbol f}-n)} \end{aligned}$
现在我们得到了无约束，且变量取值连续的目标函数，上式函数为凸函数，并令其导数为0来得到全局最优解
$\begin{aligned} \frac{dL(\boldsymbol f,\lambda)}{d\boldsymbol f}&=\frac{d[{\boldsymbol f^T L\boldsymbol f}-{\lambda({\boldsymbol f^T\boldsymbol f}-n)}]}{d\boldsymbol f}=\frac{d(\boldsymbol f^T L\boldsymbol f)}{d\boldsymbol f}-\frac{d(\lambda\boldsymbol f^T \boldsymbol f)}{d\boldsymbol f}\\ &=L\boldsymbol f + L^T\boldsymbol f-2\lambda\boldsymbol f^T\\ &=\boldsymbol f^T(L^T+L)-2\lambda\boldsymbol f^T=2\boldsymbol f^TL^T-2\lambda\boldsymbol f^T \end{aligned}$
其中 $L^T+L=2L^T$ 因为拉普拉斯矩阵 $L$ 为对称矩阵，即 $L^T=L$
我们令其等于0，即
$2\boldsymbol f^TL^T-2\lambda\boldsymbol f^T=0\Rightarrow L\boldsymbol f=\lambda \boldsymbol f$
由上式我们可以非常清楚的发现当 $L a g r an g e$ 乘子 $\lambda$ 是拉普拉斯矩阵 $L$ 的特征值，并且指示向量 $\boldsymbol f$ 为 $L$ 的特征向量，函数有极值

这个函数的极值到底等于多少呢？？？
因为目标函数是 $\boldsymbol f^T L\boldsymbol f$ ，所以我们可以将上式两边左乘一个 $\boldsymbol f^T$
$\boldsymbol f^T L\boldsymbol f=\lambda \boldsymbol f^T \boldsymbol f=\lambda n$
由于 $n = ∣ V ∣$ 表示图中所有点的个数，是一个不变常数，显然目标函数值的大小仅仅与 $\lambda$ 有关，即
$min\frac{\boldsymbol f^T L\boldsymbol f}{\boldsymbol f^T \boldsymbol f}=min\lambda$
简而言之，拉普拉斯矩阵的特征值 $\lambda$ 越大，则目标函数值就越大，特征值 $\lambda$ 越小，则目标函数值就越小

我们的最优解无疑是要求得目标函数的最小值，也就是拉普艾斯矩阵的最小特征值，在前面我们已经说过了拉普拉斯矩阵的性质，其最小特征值 $\lambda_{min}=0$ ，但我们真的可以使用 $\lambda_{min}=0$ 来作为我们的最优解吗，显然不可以！！！
至于为什么我们从我们切图的目的来看，我们利用切图所构建的目标函数代表着对某一个图切图后的代价，当这个代价为0，这意味这什么，我们根本没有进行切图，而且通过上面对 $L$ 性质的描述我们知道，特征值为0其所对应的的特征向量为全1的向量，也就是说所有样本都属于同一类。所以我们不去最小特征值，而是取第二小的特征值 $\lambda$ 作为最优值，其所对应的特征向量 $\boldsymbol f$ 便是最优解的指示向量

到这里对于这个 $k = 2$ 的二分类问题接近尾声了，我们最后还有一个问题，就是我们在求解目标函数时，将其变量取值松弛化到了整个实数域中，所以要想的到最后的分类结果我们还要将得到的最优解 $\boldsymbol f$ 转化回到离散的二分取值。
由于我们是二分类问题，将其离散化就很简单了，只需要选取一个阈值，大于该阈值便属于 $A$ ，小于该阈值便属于 $\bar A$ ，我们假设该阈值为0
$\left\{ \begin{matrix} v_i\in A & {if} f_i \geq 0\\ v_i\in \bar A & {if} f_i < 0 \end{matrix} \right.$

上面我们讲述了， $k = 2$ 时我们是如何求取分类结果的，下面我们来考虑 $k > 2$ 的情况

在这里我们定义指示向量 $h_j={h_1,h_2,...,h_k},j=1,2,...,k$ ，对于任意一个向量 $h_j$ ，它是一个 $n$ 维的向量（ $n$ 是样本数），例如 $h_1={(h_{11},h_{21},...,h_{n1})}^T$ 并且其中元素的取值满足如下条件：
$h_{ij}= \left\{ \begin{matrix} \frac{1}{\sqrt{|A_j|}} & v_i \in A_j\\ 0 & v_i \notin A_j \end{matrix} \right.$

我么将这这 $k$ 个指示向量组合为一个指示矩阵 $H$ ，因为我们的样本点只会属于某一个类，在其他类的的值为0，所以矩阵 $H$ 的每一列指示向量互相正交，所以我们可以得到 $H^TH=I$

在之前的二聚类中我们已经得到了
$\underset{A\subset V}{min}RatioCut(A,\bar A)\Leftrightarrow\underset{A\subset V}{min} \boldsymbol f^TL\boldsymbol f$
我们可以将其扩展到多聚类中
$RatioCut(A_1,...,A_k)=\sum_{i=1}^k{h_i}^TLh_i=\sum_{i=1}^k(H^TLH)_{ii}=tr(H^TLH)$
所以最终我们可以将目标函数写为：
${argmin\:{tr(H^TLH)}\\ s.t. H^TH=I}$

注意观察这里的 $tr(H^TLH)$ 的每一个优化子目标都是 ${h_i}^TLh_i$ ，在推导二分类是我们已经得到了得到 ${h_i}^TLh_i$ 最小值就要使得拉普拉斯矩阵的特征值 $\lambda$ 越小越好，所以在多分类的问题中我们就需要找到 $L$ 的前 $k$ 个最小特征值，而第 $j$ 个特征值所对应的特征向量就是我们想要得到的 $h_j$ ，然后将这 $k$ 个特征向量组成了矩阵 $H$ ，这里的特征向量依旧是连续的，我们必须要找到一种方法来将其离散化

之前在二分类是我们直接判断是否大于0的方法来将其离散化，但这在多分类是行不通的，因为这里我们的矩阵 $H$ 是 $n\times k$ 的，一共有 $k$ 列。

那么我们该用什么方法将其离散化呢？
答案是 $K - M e an s 聚类$
我们可以通过 $K - M e an s 聚类$ 的方法，将 $n$ 的样本点聚类成 $k$ 类，因为我们的 $H$ 矩阵的每一行代表着样本点向量，这个向量有 $k$ 个值，如果某两个样本点属于同一类的话那么他们的向量也会很接近，所以用 $K - M e an s$ 进行聚类会有比较好的效果

$NC u t$ 切图

$NC u t$ 切图和 $R a t i o C u t$ 切图很类似，它将 $R a t i o C u t$ 的分母 $A_j|$ 换成了 $vol(A_j)$ 。由于子图的样本数多并不一定代表权重就大，我们在切图的时候基于权重也更适合我们的目标，因此一班来说 $NC u t$ 切图要优于 $R a t i o C u t$ 切图，其中 $vol(A_j)=\sum_{v_i\in A_j}d_i$

$N c u t$ 切图的目标函数如下：
$NCut(A_1,A_2,...,A_K)=\frac{1}{2}\sum_{i=1}^k{\frac{W(A_i,\bar A_i)}{vol(A_i)}}$

与 $R a t i o C u t$ 一样我们先来看看 $k = 2$ ，即二分类的情况，定义指示向量 $\boldsymbol f$
$f_i=\left\{ \begin{matrix} \sqrt{\frac{vol(\bar A)}{vol(A)}} & f_i \in A\\ -\sqrt{\frac{vol(A)}{vol(\bar A)}} & f_i \in \bar A \end{matrix} \right.$
接下来和之前一样，推导一下目标函数
$\begin{aligned} \boldsymbol f^TL\boldsymbol f&=\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^nw_{ij}(f_i-f_j)^2\\ &=\frac{1}{2}\sum_{v_i\in A,v_j\in \bar A}w_{ij}\big(\sqrt{\frac{vol(\bar A)}{vol(A)}}+\sqrt{\frac{vol(A)}{vol(\bar A)}}\big)^2+\frac{1}{2}\sum_{v_i\in \bar A,v_j\in A}w_{ij}\big(-\sqrt{\frac{vol(\bar A)}{vol(A)}}-\sqrt{\frac{vol(A)}{vol(\bar A)}}\big)^2\\ &=cut(A,\bar A)\big(\frac{vol(\bar A)}{vol(A)}+\frac{vol(A)}{vol(\bar A)}+2\big)\\ &=cut(A,\bar A)\big(\frac{vol(\bar A)+vol(A)}{vol(A)}+\frac{vol(A)+vol(\bar A)}{vol(\bar A)}\big)\\ &=vol(V)cut(A,\bar A)\big(\frac{1}{vol(A)}+\frac{1}{vol(\bar A)}\big)\\ &=vol(V)NCut(A,\bar A)\\ \end{aligned}$
对于指示向量我们有 $D\boldsymbol f \bot \mathbf{1}$ ，证明如下：
$\begin{aligned} (D\boldsymbol f)^T\mathbf{1}&=\sum_{i=1}^nd_if_i\cdot 1=\sum_{v_i\in A}d_i\sqrt{\frac{vol(\bar A)}{vol(A)}}-\sum_{v_i\in A}d_i\sqrt{\frac{vol(A)}{vol(\bar A)}}\\ &=vol(A)\sqrt{\frac{vol(\bar A)}{vol(A)}}-vol(\bar A)\sqrt{\frac{vol(A)}{vol(\bar A)}}=0 \end{aligned}$
除此之外我们还有 $\boldsymbol f^TD\boldsymbol f$ 是 $v o l (V)$ ，证明如下：

$\begin{aligned} \boldsymbol f^TD\boldsymbol f&=\sum_{i=1}^nf_id_if_i=\sum_{v_i\in A}d_i\frac{vol(\bar A)}{vol(A)}+\sum_{v_i\in A}d_i\frac{vol(A)}{vol(\bar A)}\\ &=vol(A)\frac{vol(\bar A)}{vol(A)}+vol(\bar A)\frac{vol(A)}{vol(\bar A)}=vol(V) \end{aligned}$

综上我们可以得到目标函数，并将其松弛化得到：
${\underset{\boldsymbol f\in \mathbb{R}^n}{min}\:\boldsymbol f^TL\boldsymbol f\\ s.t.{D\boldsymbol f\bot \mathbf{1}\\ \boldsymbol f^TD\boldsymbol f=vol(V)}}$

从上式我们可以观察到它在约束条件上与 $R a t i o C u t$ 的区别，在 $R a t i o C u t$ 里是 $\boldsymbol f^T\boldsymbol f=n$ ，中间并没有 $D$ ，而 $NC u t$ 却有，这也使得 $R a t i o C u t$ 里利用目标函数的拉格朗日乘子推导出的概念并不适用于此，那么如何让其适用呢？

答案是：将拉普拉斯矩阵 $L$ 进行归一化
我们令 $w=D^{\frac{1}{2}}\boldsymbol f$ ，则 $\boldsymbol f=D^{-\frac{1}{2}}w$ ，可以得到
${\underset{\boldsymbol f\in \mathbb{R}^n}{min}\:w^TD^{-\frac{1}{2}}LD^{-\frac{1}{2}}w\\ s.t.{w\bot D^{\frac{1}{2}}\mathbf{1}\\ w^TDw=vol(V)}}$
对于上式我们将原来的 $L$ 转化为 $D^{-\frac{1}{2}}LD^{-\frac{1}{2}}$ ，其最小特征值为1，对应的特征向量为 $D^{\frac{1}{2}}\mathbf{1}$ ，我们将 $D^{-\frac{1}{2}}LD^{-\frac{1}{2}}$ 看做为一个整体后，其与 $R a t i o C u t$ 的目标函数形式基本没有差别，所以在 $R a t i o C u t$ 得到的结论都可以使用，求解的操作对象由 $L$ 转变到了 $D^{-\frac{1}{2}}LD^{-\frac{1}{2}}$

接下来我们来看看 $k > 2$ 的多聚类

与 $R a t i o C u t$ 一样我们先定义指示向量 $h_j$ ，其位 $n\times1$ 的向量，定义如下：
$h_{ij}= \left\{ \begin{matrix} \frac{1}{\sqrt{vol(A_j)}} & v_i \in A_j\\ 0 & v_i \notin A_j \end{matrix} \right.$
我们可以将这 $k$ 个指示向量 $h_j$ 组合成矩阵 $H$ ，矩阵的列向量依然正交，且我们有 $H^TDH=I$ ，所以可得到以下目标函数：
${\underset{H\in \mathbb{R}^{n\times k}}{min}\:Tr(H^TLH)\\ s.t.\:H^TDH=I}$
我们再令 $D^{-\frac{1}{2}}F$ ，则 $H^TLH=F^TD^{-\frac{1}{2}}LD^{-\frac{1}{2}}F$ ， $H^TDH=F^TF=I$ ，优化目标变为：
$argmin\:tr(F^TD^{-\frac{1}{2}}LD^{-\frac{1}{2}}F)\\ s.t.\:F^TF=I$
可以发现这个式子与 $R a t i o C u t$ 基本一致，后面的操作对象从 $L$ 变为 $D^{-\frac{1}{2}}LD^{-\frac{1}{2}}$ ，后面操作与 $R a t i o C u t$ 相同即可