Spectral clustering (谱聚类)是一种比较现代的聚类方法,基于图的分割(Graph cut)。不同于k-means需要数据点分布在N维欧式空间,谱聚类只需要知道数据点之间的相似性矩阵,就可进行运算,而不需要数据必须来自欧式空间。
谱聚类通过对于由数据相似性矩阵出发构造的数据Laplacian矩阵进行谱分解,实现数据降维,即实现在新的低维特征空间中,数据可分度提高。
维基百科中对于谱分解的定义如下:
线性代数中,特征分解(Eigendecomposition),又称谱分解(Spectral decomposition)是将矩阵分解为由其特征值和特征向量表示的矩阵之积的方法。
为了更加透彻的理解谱聚类,首先大概介绍下特征值和特征向量相关知识。
维基百科中对于特征值和特征向量的定义如下:
N 维非零向量 v 是 N×N 的矩阵 A 的特征向量,当且仅当下式成立:
其中 λ 为一标量,称为 v 对应的特征值。也称v 为特征值λ 对应的特征向量。也即特征向量被施以线性变换 A 只会使向量伸长或缩短而其方向不被改变。
举一个例子(维基百科中蒙娜丽莎图像的例子),假设一幅图像只进行了左右翻转变换,则对于垂直方向,这个变换并没有使得向量的防线改变,而对于水平方向,变换使得向量方向发生了逆转。从而,垂直方向是一个特征值为1的特征向