基于证据积累的成对概率聚类与集群集成技术性能极限探索
1. 成对概率聚类
在数据聚类领域,基于证据积累的框架为聚类问题提供了一种新的解决思路。通过最小化真实共关联矩阵与经验共关联矩阵之间的差异,我们可以找到聚类问题的解决方案。
1.1 共关联矩阵与优化问题
设 $C$ 是从聚类集成 $E$ 的观测中得到的 $Y^⊤Y$ 的最大似然估计,我们将 $C$ 称为经验共关联矩阵,$Y^⊤Y$ 称为真实共关联矩阵。通过最小化两者之间的差异,我们得到以下优化问题:
[
Y^ = \arg\min_{Y \in \Delta_{n}^{K}} |C - Y^⊤Y| {F}^{2}
]
其中,$|\cdot| {F}$ 是 Frobenius 范数。$Y^ $ 为我们提供了对象到 $K$ 个类别的软分配,$y_{ki}^ $ 表示对象 $i$ 被分配到类 $k$ 的概率。如果需要硬分区,可以将每个对象 $i$ 分配到概率最高的类别,即 $\arg\max_{k = 1…K}{y_{ki}^ }$。
1.2 相关工作
在相关研究中,也有类似的成对聚类方法。例如,在对相似性矩阵 $W$ 进行预处理时,寻找其在 $\ell_1$ 范数、Frobenius 范数或相对熵下最接近的双随机矩阵 $F$,然后通过求解以下优化问题来解决 $k$ 聚类问题:
[
G^* = \arg\min_{G \in \mathbb{R} {+}^{k\times n}} |F - G^⊤G| {F}^{2}
]
超级会员免费看
订阅专栏 解锁全文
3443

被折叠的 条评论
为什么被折叠?



