高斯图形模型在NCR基因推断中的应用
1. 氮代谢物抑制(NCR)简介
氮是所有生命形式必需的营养物质。酵母 Saccharomyces cerevisiae 优先运输和分解优质氮源,而不是劣质氮源,这种选择机制被称为氮代谢物抑制(NCR)。具体来说,NCR抑制了降解贫瘠氮源所需的基因的转录激活系统。在这种情况下,生物信息学方法可以识别相对较少数量的假定NCR基因,从而节省时间和资源。
2. 高斯图形模型(GGMs)
高斯图形模型(Gaussian Graphical Models, GGMs)在推断基因之间的多元依赖关系方面变得越来越受欢迎。这些模型编码了基因之间的完整条件关系,能够区分直接与间接的相互作用。GGMs通过估计基因之间的偏相关性来推断基因网络,从而识别潜在的NCR基因。
2.1 模型背景
标准的多变量方法用于GGMs的结构学习需要估计完整的联合概率分布。然而,功能基因组学中通常遇到的数据集描述了大量的变量(数量在数百或数千),但只包含相对较少的样本(数量在数十或数百),这使得这种估计成为一个不适定问题。因此,不能直接应用标准的多变量方法。
2.2 替代方法
为了解决这个问题,引入了两种替代方法:
- 正则化技术 :通过添加惩罚项来防止过拟合。
- 有限阶偏相关 :通过计算部分相关性来简化问题。
本文讨论了使用正则化技术的方法,特别是利用Ledoit-Wolf引理的收缩协方差估计器。这个估计器已经成功用于从微阵列数据中推断遗传调控网络(GRN),它在统计上是高效