双聚类与半监督聚类技术解析
1. 双聚类的数值方面
在双聚类中,有一个重要的定理(定理 15.8),它指出能完全或部分添加到双聚类 (A_{IJ}) 中且使得分降低的行集合 (R) 为:
[R = \left{i \notin I \left| \frac{1}{|J|} \sum_{j \in J} (a_{ij} - a_{iJ} - a_{IJ} + a_{IJ})^2 \leq H(I, J) \right. \right}]
证明过程与定理 15.5 类似。对于列也有类似的结果。
为了发现多个双聚类,算法会重复应用于修改后的矩阵。修改方式包括对先前发现的双聚类单元格中的值进行随机化,以防止其内容对矩阵中的其他双聚类产生影响,避免识别出有显著重叠的双聚类。
1.1 二元数据集双聚类的数值方面
对于二元数据矩阵 (W \in {0, 1}^{m \times n}),提出了一种聚类模型,试图将 (W) 表示为 (W = \tilde{W} + E),其中 (\tilde{W}) 描述了 (W) 中与聚类结构相关的信息,(E) 是误差分量。
该方法尝试同时对矩阵 (A) 的行和列进行聚类,寻找 (K) 个行聚类和 (C) 个列聚类。数据集 (D) 的行聚类划分是 (\pi = {P_1, \ldots, P_K}),列聚类划分是 (\gamma = {Q_1, \ldots, Q_C})。
矩阵 (\tilde{W}) 被称为 (W) 的近似矩阵,可表示为 (\tilde{W} = AXB’),其中 (A \in {0, 1}^{m \times K}),(X \in R^{K \times
超级会员免费看
订阅专栏 解锁全文
551

被折叠的 条评论
为什么被折叠?



