多视图聚类方法详解
1. 引言
聚类是将数据划分为不同组(簇)的任务,使得同一簇内的数据点比不同簇的数据点更相似。在多视图情况下,尽管数据点由不同的特征集(视图)表示,但理想情况下,它们的相对相似性在各个视图中应该是相同的。也就是说,如果存在一个潜在的真实聚类,无论使用哪个视图,都应该将一个数据点分配到同一个簇中。
主要介绍三种多视图聚类方法:
- 多视图谱聚类:通过数据关系图的划分进行聚类,依赖于数据邻接矩阵的特征向量。
- 多视图子空间聚类:旨在恢复多视图数据的潜在子空间,并在其上进行聚类。
- 分布式多视图聚类和多视图聚类集成:分布式多视图聚类先从每个视图单独学习模式,然后将它们组合起来学习最优的聚类模式;多视图聚类集成则结合多个聚类算法的结果以获得更好的性能。
2. 多视图谱聚类
2.1 协同训练谱聚类
协同训练作为最经典的多视图学习算法之一,是开发除半监督学习之外的多视图学习算法的一个合理起点。协同训练谱聚类是将经典谱聚类适应到多视图设置的一种方法。
2.1.1 谱聚类回顾
谱聚类是一种理论基础扎实的算法,基于谱图理论。给定数据集 $U = {x_u} {u = 1, \ldots, U}$,谱聚类的步骤如下:
1. 构建数据邻接矩阵 $W$,其中 $W {ij}$ 量化数据点 $x_i$ 和 $x_j$ 之间的相似度。
2. 计算归一化图拉普拉斯矩阵 $L$,这里采用 $L = D^{-1/2}M D^{-1/2}$,其中 $D$ 是对角矩阵,其对角元素 $D_{ii} = \sum_{j} W_{ij}$
超级会员免费看
订阅专栏 解锁全文
829

被折叠的 条评论
为什么被折叠?



