基因数据双聚类分析与重采样改进算法
1. 基因扰动实验定性推理
在系统基因扰动实验中,根据扰动实验的结果,网络中的某些信息可能无法被推断出来。例如,在特定的一组实验中,如果某些基因(如基因 10、12、13、15、16、18 和 19)未被观察到,那么关于它们可能的调控作用的信息就非常有限。未观察到的基因信息是有价值的,可在后续可能的实验中,用于选择重点关注的基因。
在相关文献中,稳态扰动实验的自动化处理通常采用定量方法。不过,GenePath 软件是个例外,它利用“IF - THEN”规则推理方法,分析同一生物体的单突变体和双突变体之间的定性差异。但 GenePath 旨在处理表型变量的定性变化,而我们的方法则直接分析基因表达数据。
2. 双聚类问题引入
在许多科学领域,从大型数据集中寻找相似性至关重要。它能在没有明确信息的情况下对多种类型的数据进行分类。以往,研究人员常使用聚类等分析方法,结合模式和条件对数据进行分类。近年来,双聚类等新的分析工具被提出并应用于许多特定问题。双聚类算法不仅能根据选定条件对数据进行分类,还能找到更精确的分类条件。
同时分析大量基因的表达,为研究基因组信息提供了绝佳机会。例如,DNA 微阵列技术提供了数据集,在不同条件下对基因进行实验的结果,是存储在 DNA 芯片中的转录 mRNA 的表达水平。我们的任务是找到在部分条件下表现出相似性的基因子集,因此采用双聚类技术。该技术最早于 1972 年由 Hartigan 提出,其方法是寻找方差最小的子矩阵,“完美双聚类”是方差为零的子矩阵。
Cheng 和 Church 给出了更精确的双聚类定义,并引入了均方残差(MSR)这一指标,用于计算双聚
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



