The Constrained Laplacian Rank algorithm for graph-based clustering ——论文笔记
主要介绍了CLR方法,是聂飞平老师16年的论文,文章和代码见聂老师主页:http://www.escience.cn/people/fpnie/index.html
Abstract
- 现有的基于图的聚类方法都是在固定输入的数据图上进行聚类,如果输入的图质量较差,则聚类结果也会较差;
- 这些方法往往需要进行后处理才能完成聚类;
- 针对这两个缺点,提出Constrained Laplacian Rank (CLR)方法,将数据图本身作为聚类过程的一部分进行调整;
- 该方法可以学得刚好有k个连通分量的图;
- 基于L2范数和L1范数,产生了两种聚类目标,分别推导了优化算法进行求解。
Introduction
- 现有的基于图的聚类方法都是先由数据构建数据图,然后在固定的数据图上完成优化。
- Problem:
- 不能直接学习到聚类结果,需要对数据相似图进行后处理以完成聚类任务;
- 相似图的质量很大程度上决定了聚类结果的好坏,现有的构图方法无法保证对于不同规模数据集的构图质量。
- Solution:
- 直接学习有k个连通分量的数据相似图;
- 对数据相似图施加拉普拉斯秩约束,保证k个连通分量的存在;
- 针对1范数和2范数,提出两种聚类目标函数并给出优化算法。
New Clustering Formulations
-
重述了introduction中的问题与解决思路。
-
引入拉普拉斯矩阵,给出定理:拉普拉斯矩阵Ls的特征值中0出现的次数就是相似度矩阵连通区域的个数。根据定理,对数据相似图施加拉普拉斯秩约束$ (rank(L_A)=n-k)$,保证了k个连通分量的存在,进而可以直接将数据点划分为k簇。
-
避免出现全0行,将S的每一行和约束为1。
-
针对两种距离,分别给出目标函数。其中的约束是非线性的,文章在下文中提出了解决的算法。
Optimization Algorithms
L2-norm:
-
令$ \sigma_i(L_S) 表 示 第 表示第 表示第 i 小 的 特 征 值 , 小的特征值, 小的特征值, L_S 是 半