双聚类算法:原理、应用与实现
1. 双聚类简介
双聚类(Biclustering)的概念由 J. A. Hartigan 从数据矩阵 D 出发提出,在计算生物学领域有诸多应用。双聚类被定义为数据矩阵 A 的子矩阵 $A\begin{bmatrix}I\J\end{bmatrix}$ ,数据矩阵 A 的双聚类是其一系列子矩阵(双聚类)的集合。一般来说,双聚类算法旨在识别符合特定模式的双聚类。
1.1 双聚类的类型
文献中考虑了几种类型的双聚类:
- 常值双聚类 :揭示一组变量在某些实验子集中具有相似变量值的情况。
- 行或列常值双聚类 :识别在一组变量(实验)子集中具有相似表达水平的实验(变量)子集。
- 行列相干值双聚类 :表明实验和变量之间存在更复杂的关系,例如双聚类的元素可能具有 $a_{ij} = k + x_i + y_j$ 的形式。
- 相干演化双聚类 :指向一组实验,其中变量的值在每个实验中显示相同类型的变化。
1.2 双聚类的性质
某些类型的双聚类与它们作为数据矩阵子矩阵的性质相关。如果每个实验至少属于一个双聚类,则双聚类是行穷举的;如果每个变量至少属于一个双聚类,则双聚类是列穷举的。如果每个实验(变量)最多只能是一个双聚类的一部分,则双聚类是行排他(列排他)的。
1.3 双聚类的应用
双聚类算法可用于挖掘各种数据集。例如,数据矩阵的行可以表示文档,列可以对应术语,矩阵元素可以表示术语在
超级会员免费看
订阅专栏 解锁全文
943

被折叠的 条评论
为什么被折叠?



