可能性双聚类算法:原理、指标与实验结果解析
1. 可能性双聚类算法原理
可能性双聚类算法(PBC)旨在生成高度相干的重叠双聚类。在该算法中,会对行和列的成员关系进行判断,若某行(列)相对于特定双聚类的成员关系大于阈值 ξ,且与该行(列)最大成员关系的差值小于阈值 η,则将该行(列)插入该双聚类。通过这种方式,对所有行和列进行检查并插入到合适的双聚类中,插入的行和列成员值大于 ξ,ξ 用于生成高相干双聚类。若行或列在某些双聚类中的成员关系非常高,则仅将其插入这些双聚类,这由预定义的阈值 η 进行调整。
插入操作完成后,计算每个双聚类的均方残差,并与给定阈值 δ 进行比较。若第 k 个双聚类 Bk 的均方残差大于 δ,则删除该双聚类中成员值最小的行或列,重复此过程直至均方残差小于 δ。
2. 双聚类均值计算
在每次迭代中,需要计算第 i 个基因、第 j 个条件和第 k 个双聚类的均值或基,以计算每个双聚类的均方残差。计算公式如下:
- (a_{iJ_k} = \frac{1}{|J_k|U_{kiJ}^m} \sum_{j\in J_k} U_{kij}^m(a_{ij} - a_{Ikj}) + a_{IkJ_k}) (10.14)
- (a_{Ikj} = \frac{1}{|I_k|U_{kIj}^m} \sum_{i\in I_k} U_{kij}^m(a_{ij} - a_{iJ_k}) + a_{IkJ_k}) (10.15)
- (a_{IkJ_k} = \frac{\sum_{i\in I_k} U_{kiJ}^m a_{iJ_k}}{\sum_{i\in I_k} U_{kiJ}^m} + \frac{\sum_