聚类与约束挖掘相关知识解析
1. 共识聚类
1.1 定义
给定一组 $n$ 个对象 $V$,以及 $m$ 个对 $V$ 中对象的聚类 $ {C_1, C_2, \cdots, C_m}$,目标是找到一个单一聚类 $C$,使其与输入聚类的差异最小。即 $C$ 要最小化 $D(C) = \sum_{C_i} d(C, C_j)$,其中 $d$ 是 $V$ 上聚类的某种度量。
1.2 度量方法
- 信息变异度量 :Meilă(2003)提出,但理论分析较困难。
- 米尔金度量 :最广泛使用,$d(C, C’)$ 是在 $C$ 中聚在一起而在 $C’$ 中分开,或者反之的对象对 $(u, v)$ 的数量,计算时间为 $O(mn)$。
1.3 聚类解释
可以将共识聚类中的每个聚类 $C_i$ 解释为对象对应该聚在一起或分开的证据。$w_{uv}^+$ 是 $C_i$ 中 $C_i[u] = C_i[v]$ 的 $C_i$ 的数量,$w_{uv}^-$ 是 $C_i$ 中 $C_i[u] \neq C_i[v]$ 的 $C_i$ 的数量,且 $w_{uv}^+ + w_{uv}^- = m$。共识聚类是相关聚类的一个实例,其中 $w_{uv}^-$ 权重满足三角不等式。
2. 约束聚类
2.1 定义
约束聚类是一种半监督方法,在聚类数据时结合以约束形式存在的领域知识。约束通常表示为成对陈述,表明两个项目必须或不能放在同一个聚类中。约束聚
超级会员免费看
订阅专栏 解锁全文
3844

被折叠的 条评论
为什么被折叠?



