36、相关性与共识聚类:原理、算法及应用

相关性与共识聚类:原理、算法及应用

1. 引言

相关性聚类起源于文档聚类,其核心是依据从过往数据中学习到的成对相似度函数,对当前文档集进行分区,使分区结果尽可能与该函数相关。此问题可转化为对完全图的分区问题,图中每条边根据端点的相似度被标记为“+”或“-”。相关性聚类旨在生成一个顶点分区,使其与边的标签尽可能一致,即最大化簇内“+”边和簇间“-”边的数量。而且,在相关性聚类中,无需单独指定簇的数量,最优簇数取决于边的标签。同时,还会介绍用于最小化分歧和最大化一致性的近似算法。

共识聚类则从一组聚类开始,旨在计算一个与它们尽可能一致的聚类,也被称为聚类聚合。此问题在多种场景中自然出现,例如对分类数据进行聚类,每个分类变量可视为对输入行的一种聚类。此外,聚类聚合还可作为一种元聚类方法,用于提高聚类的鲁棒性。

2. 图与相关性聚类

设 $G = (V, E)$ 是一个顶点集为 $V = {v_1, \ldots, v_n}$ 的图,$e : E \to {+, -}$ 为标记函数。相关性聚类的一个实例是三元组 $(V, E^+, E^-)$,其中 $E^+ = { {x, y} \in E | e({x, y}) = +}$,$E^- = { {x, y} \in E | e({x, y}) = -}$。

对于顶点 $v$,其正邻居集 $N^+(v) = {v} \cup {u \in V | {u, v} \in E \text{ 且 } e(u, v) = +}$,负邻居集 $N^-(v) = {v} \cup {u \in V | {u, v} \in E \text{ 且 } e(u, v) = -

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值