探索聚类集成技术性能极限与多特征相似性轮廓分组
1. 聚类集成技术性能极限探索
在聚类集成技术中,我们关注如何衡量聚类结果的质量以及探索其性能极限。首先,定义了距离总和(SOD)的概念,对于一个聚类结果 $\tilde{P}$,其 SOD 为 $SOD(\tilde{P}) = \sum_{i=1}^{N} d(\tilde{P}, P_i)$,其中 $d$ 是距离函数,$P_i$ 是已知的分区。而最优分区 $P^ $ 的 SOD 为 $SOD(P^ ) = \sum_{i=1}^{N} d(P^ , P_i)$,并且有 $SOD(\tilde{P}) \geq SOD(P^ )$。
由于 $P^ $ 和 $SOD(P^ )$ 通常是未知的,我们采用一个下界 $\Gamma$ 来衡量 $\tilde{P}$ 的质量,即 $0 \leq \Gamma \leq SOD(P^*) \leq SOD(\tilde{P})$,用 $SOD(\tilde{P}) - \Gamma$ 来评估 $\tilde{P}$ 的质量。这个下界 $\Gamma$ 可以通过线性规划来计算,具体如下:
最小化 $x_1 + x_2 + \cdots + x_N$,约束条件为:
- 对于任意 $i, j \in {1, 2, \cdots, N}$,$i \neq j$,有
- $x_i + x_j \geq d(P_i, P_j)$
- $x_i + d(P_i, P_j) \geq x_j$
- $x_j + d(P_i, P_j) \geq x_i$
- 对于任意 $i \in {1, 2, \cd
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



