用于基因关联分析的潜在树模型森林
在基因关联研究中,找到与疾病相关的遗传因素是一项极具挑战性但又至关重要的任务。潜在树模型森林(FLTM)作为一种新兴的方法,为解决这一难题提供了新的思路。本文将深入探讨FLTM模型在基因关联研究中的应用,包括其定义、动机、相关工作以及学习算法等方面。
基本定义
在深入了解FLTM模型之前,我们需要明确一些基本的概念:
- 条件独立性 :给定变量子集 $S \subseteq X \setminus {X_i, X_j}$,若 $P(X_i, X_j|S) = P(X_i|S) P(X_j|S)$,则称 $X_i$ 和 $X_j$ 在给定 $S$ 时条件独立;反之则条件依赖。
- 贝叶斯网络(BN) :由有向无环图 $G(X, E)$ 和参数集 $\theta$ 定义。节点集 $X = {X_1, …, X_p}$ 表示 $p$ 个随机变量,边集 $E$ 捕捉变量间的条件依赖关系。参数集 $\theta$ 描述条件概率分布 $\theta_i = [P(X_i/Pa_{X_i})]$,其中 $Pa_{X_i}$ 表示节点 $i$ 的父节点。若节点无父节点,则由先验概率分布描述。变量有 $n$ 个观测值,当 $X$ 满足局部马尔可夫性质(即每个变量在给定其父变量时与非后代变量条件独立)时,它是关于 $G$ 的贝叶斯网络,联合概率分布可写为 $P(X) = \prod_{i\in{1,…,p}} \theta_i$。
- 马尔可夫随机场(MRF) :给定无向图 $G(X, E)$,若随机变量集 $X$ 满足局部马尔可夫性质(即一个