相关性与共识聚类:原理、算法及应用
1. 引言
相关性聚类起源于文档聚类,其核心是依据从过往数据中学习到的成对相似度函数,对当前文档集进行分区,使分区结果尽可能与该函数相关。此问题可转化为对完全图的分区问题,图中每条边根据端点的相似度被标记为“+”或“-”。相关性聚类旨在生成一个顶点分区,使其与边的标签尽可能一致,即最大化簇内“+”边和簇间“-”边的数量。而且,在相关性聚类中,无需单独指定簇的数量,最优簇数取决于边的标签。同时,还会介绍用于最小化分歧和最大化一致性的近似算法。
共识聚类则从一组聚类开始,旨在计算一个与它们尽可能一致的聚类,也被称为聚类聚合。此问题在多种场景中自然出现,例如对分类数据进行聚类,每个分类变量可视为对输入行的一种聚类。此外,聚类聚合还可作为一种元聚类方法,用于提高聚类的鲁棒性。
2. 图与相关性聚类
设 $G = (V, E)$ 是一个顶点集为 $V = {v_1, \ldots, v_n}$ 的图,$e : E \to {+, -}$ 为标记函数。相关性聚类的一个实例是三元组 $(V, E^+, E^-)$,其中 $E^+ = { {x, y} \in E | e({x, y}) = +}$,$E^- = { {x, y} \in E | e({x, y}) = -}$。
对于顶点 $v$,其正邻居集 $N^+(v) = {v} \cup {u \in V | {u, v} \in E \text{ 且 } e(u, v) = +}$,负邻居集 $N^-(v) = {v} \cup {u \in V | {u, v} \in E \text{ 且 } e(u, v) = -
超级会员免费看
订阅专栏 解锁全文
1679

被折叠的 条评论
为什么被折叠?



