论文阅读(十一)：基因-表型关联贝叶斯网络模型的评分、搜索和评估

最新推荐文章于 2025-05-10 12:07:17 发布

梦云澜

最新推荐文章于 2025-05-10 12:07:17 发布

阅读量1.1k

点赞数 8

分类专栏：生信入门文章标签：论文阅读深度学习人工智能

本文链接：https://blog.youkuaiyun.com/qq_64411728/article/details/145396463

版权

生信入门专栏收录该内容

17 篇文章

订阅专栏

1.论文链接：Scoring, Searching and Evaluating Bayesian Network Models of Gene-phenotype Association

摘要：

全基因组关联研究（GWAS）的到来为识别常见疾病的遗传变异（单核苷酸多态性（SNP））提供了令人兴奋的可能性。然而，我们对常见疾病的遗传结构的了解仍然有限。一个可能的原因是基因、环境和所研究疾病之间的复杂相互作用。本章讨论了三个方面，预计将有助于取得进展，揭示一些这些复杂的相互作用，使用GWAS数据集。首先，结果显示，比较各种贝叶斯网络评分标准的性能。其次，开发启发式搜索算法来从高维数据中学习复杂的交互是一个热门话题。第三，全基因组上位性检测中涉及的假设检验与标准GWAS分析中涉及的假设检验有很大不同，标准GWAS分析中只考虑零假设和替代假设。

关键词：全基因组关联研究，上位性，贝叶斯网络，评分

全基因组关联研究（GWAS）的到来为识别常见疾病的遗传变异（单核苷酸多态性或SNP）提供了令人兴奋的可能性。然而，我们对常见疾病的遗传结构的了解仍然有限。一个可能的原因是基因、环境和所研究疾病之间的复杂相互作用。本章讨论了三个方面，预计将有助于取得进展，揭示一些这些复杂的相互作用，使用GWAS数据集。首先，结果显示，比较各种贝叶斯网络评分标准的性能。其目的是对候选基因座-疾病模型进行评分，以确定哪些模型最值得注意。在这种比较中，模拟数据集被认为是，其中两个SNP相互作用上位。其次，开发启发式搜索算法，从高维数据中学习复杂的相互作用是最近的一个重要研究领域。多波束搜索（MBS）算法，一个启发式的贪婪搜索的基础上逐步搜索和淘汰的原则，然后提出。这该过程旨在学习最能描述遗传变异与疾病之间联系的贝叶斯网络。这种启发式可以检测上位2-SNP相互作用。这种启发式的局限性进行了讨论。第三，全基因组上位性检测中涉及的假设检验与标准GWAS分析中涉及的假设检验有很大不同，标准GWAS分析中只考虑零假设和替代假设。由于交互模型有不同的替代模型（2-SNP，3-SNP，4-SNP......），目标是计算给定数据的此类竞争模型的后验概率。这第三个方面是通过开发BN后验概率（BNPP）来解决的。第二个方面进行了评估，使用模拟数据集。真实的数据集被用来评估第三方面。

11.1介绍

高通量基因分型技术的出现带来了确定常见疾病（如高血压、糖尿病、癌症和阿尔茨海默病）的遗传变异的希望。然而，我们对常见疾病的遗传结构的了解仍然有限;这部分是由于基因型和表型之间的复杂关系。这种复杂关系的一个可能原因是基因与基因以及基因与环境的相互作用。因此，高通量遗传数据分析的一个重要挑战是发展计算和统计方法来识别基因-基因相互作用。在本章中，我们将贝叶斯网络评分标准应用于从GWAS数据中识别基因-基因相互作用。

本章的其余部分有以下几节。第11.2节给出了上位性和GWAS相关的背景;第11.3节描述了代表上位性的贝叶斯网络模型;第11.4节描述了几个BN评分标准，并使用合成基因型数据对其进行了评估和比较;第11.5节描述了用于识别真实的GWAS数据中遗传相互作用的启发式搜索策略;第11.6节描述了如何确定一个确定的艾德遗传相互作用是否值得进一步研究。

11.2背景

11.2.1上位性

在孟德尔疾病中，单个基因座的遗传变异可能导致疾病[2]。然而，在许多常见疾病中，疾病的表现很可能是由于多个基因座的遗传变异，每个基因座赋予发展疾病的适度风险。例如，有证据表明，基因-基因相互作用可能在高血压[24]、散发性乳腺癌[30]和其他常见疾病[25]的遗传基础中发挥重要作用。两个或多个基因之间的相互作用产生一个表型，如疾病易感性，称为上位性。在生物学上，上位性很可能来自于分子水平上发生的物理相互作用。在统计学上，上位性是指多个基因座之间的相互作用，使得表型的净效应不能通过简单地组合单个基因座的效应来预测。通常，个别基因座表现出弱的边缘效应;有时他们可能没有表现出。

从基因组数据中识别上位性的能力对于理解许多常见疾病的遗传很重要。例如，研究癌症中的遗传相互作用对于我们在遗传水平上进一步理解癌症机制至关重要。众所周知，癌细胞通常是由于多个基因座的突变而发展的，其联合生物学效应导致不受控制的生长。但是许多与癌症相关的突变和突变位点之间的相互作用仍然未知。例如，BRCA 1和BRCA 2等高度渗透的癌症易感基因与乳腺癌有关[1]。

然而，只有大约5%到10%的乳腺癌可以用这些单一基因的生殖系突变来解释。“大多数有乳腺癌家族史的女性在单一的高度外显的癌症易感基因中不携带种系突变，但家族簇继续出现在每一代人中”[16]。这种现象尚未得到很好的理解，未发现的突变或突变之间未发现的相互作用可能是原因。

最常见的遗传变异是单核苷酸多态性（SNP），当通常存在于基因组序列上特定位置的核苷酸被另一个核苷酸取代时会导致这种变异。在大多数情况下，SNP是双等位基因的;也就是说，它在腺嘌呤（A）、鸟嘌呤（G）、胞嘧啶（C）和胸腺嘧啶（T）这四种DNA核苷酸碱基中只有两种可能的值。频率较低（罕见）的等位基因必须存在于1%或更多的人群中，以使位点有资格作为SNP [4]。据估计，人类基因组含有1500万至2000万个SNP。在下文中，我们将SNP称为在寻找某些基因座与表型（如疾病易感性）的相关性时研究的基因座。

当试图从基因组数据中学习上位相互作用时，我们必须以某种方式对候选SNP模型进行评分，以确定哪些模型最值得注意。布里：SNP模型是描述SNP与疾病状态之间关系的贝叶斯网络模型;贝叶斯网络模型在第11.3节中详细描述。标准技术（如多元线性回归）可能不适用，因为预测变量和目标都是离散的。一个众所周知的技术，这是设计来解决处理离散变量的问题，是多因素的离散性减少（MDR）[13]。MDR将两个或多个变量合并为一个变量（因此导致降维）;这改变了数据的表示空间，便于检测变量之间的非线性相互作用。MDR已成功应用于检测疾病中的上位相互作用，如散发性乳腺癌[30]和II型糖尿病[6]。然而，确定对候选SNP模型进行评分以识别上位性的最佳方式仍然是一个悬而未决的问题。MDR通常被称为组合方法，因为开发它的研究人员调查了分析中SNP的所有组合。

11.2.2全基因组关联研究

高通量技术的出现使全基因组关联研究（GWAS）成为可能。GWAS涉及从人群中取样的个体中约50万个代表性SNP的基因分型。一个数据集，其中的每个记录都有这么多的属性被称为高维。在病例对照GWAS中，我们用SNPs值来确定疾病状态沿着。这些研究为研究人员提供了前所未有的机会来研究疾病的复杂遗传基础。也就是说，我们可以研究每个SNP本身与疾病的关联，也可以研究SNP的组合以寻找上位性。这样的研究被称为不可知论研究，因为我们对任何特定的基因座都没有特别的先验信念。通过观察单基因座关联，研究人员已经艾德了与60种常见疾病和特征相关的150多个风险基因座[8，15，20，22，28，33]。

然而，单SNP研究不能检测复杂的上位性相互作用，其中每个位点本身表现出很少或没有边际效应。为了充分利用这些数据并可能揭示大量遗传风险的暗物质，我们使用多位点方法分析这些数据至关重要。然而，我们从这些数据的组合爆炸中得出结论。例如，如果我们仅在存在500 000个SNP时调查所有1-、2-、3-和4-SNP组合，则我们需要调查组合。因此，研究人员最近开发了启发式方法，用于指导使用GWAS数据集研究上位相互作用时的搜索[3，19，23，39]。然而，使用高维数据集成功分析上位性仍然是一个开放且重要的问题。第272页2.604×10的21次方。

这些从高维数据集中学习潜在疾病风险的机会给我们带来了另一个挑战：即，当可能有数十亿个数据集时，我们如何分析和解释我们的假设？这里涉及的假设检验与典型分析中涉及的假设检验有很大不同，在典型分析中，我们可能会分析新药的效果。在后一种情况下，我们只分析了一个假设，并且该药物具有相当高的先验有效概率，否则该研究不会被考虑。在涉及许多假设的发现研究中，每个假设都有很低的先验概率。

从历史上看，处理这种多假设检验问题的最常见策略是通过使用Bonferroni校正来限制族错误率来控制I型错误（错误发现）。例如，[28]中的结果被报道为Bonferroni校正的显着性。然而，正如[17]和11.6节开头所讨论的，邦弗罗尼校正遇到了困难，特别是在这个领域。校正的结果通常无法在研究中重复[12]。其中一个原因可能是由于这些困难。因此，从GWAS数据中学习的另一个挑战是确定一种方法来决定哪些SNP模型值得进一步研究。

总之，我们在从高维GWAS数据集学习时艾德了以下三个困难：

1确定对候选SNP模型进行评分的最佳方法，以确定哪些模型最值得注意。2开发启发式搜索算法，用于从高维数据中学习上位相互作用。3确定一种方法来决定哪些发现的SNP模型是值得进一步研究的。第11.4、11.5和11.6节介绍了我们在解决这些困难方面取得的进展。它们都使用相同的贝叶斯网络模型，我们首先描述它。

11.3贝叶斯网络模型

11.4评分候选模型

本节介绍DDAG模型的各种评分标准的评估。它是基于[18]中的结果。首先我们回顾一下这些标准

11.4.1贝叶斯网络评分标准

11.4.2实验

方法

我们评估了MDR的性能、K2评分、BDeu评分（α取其值）、Suzuki的MDL评分和AIC评分。我们使用[36]中开发的模拟数据集评估了评分标准。每个模拟数据集是从70个上位性模型中的一个开发的。每个模型代表一种概率关系，其中两个SNP一起与疾病相关，但两个SNP都不能单独预测疾病。这些关系代表了不同程度的遗传率、遗传力和次要等位基因频率。数据集的病例对照比（患病个体与未患病个体的比例）为1：1。为了创建一个数据集，[36]通过指定遗传率，遗传力和次要等位基因频率来固定遗传模型。基于该模型，生成两种上位性SNP的基因型数据，向其中添加18种不能预测疾病的另外SNP的基因型数据。对于70个模型中的每一个，生成100个数据集，提供总共7000个数据集。对于等于200、400、800和1600的数据集大小，遵循该程序。

对于每个模拟数据集，我们对所有1-SNP、2-SNP、3-SNP和4-SNP DDAG进行评分。因此，每个数据集的DDAG评分总数为6195。由于在真实的环境中，我们不知道生成数据的模型中SNP的数量，因此在学习过程中所有模型都被平等对待。

结果

我们说，如果一个方法在所有6195个模型中对代表生成模型的DDAG评分最高，则该方法正确地学习了生成数据的模型。表11.1显示了在7000个数据集中，每个BN评分标准正确学习每个样本量的生成模型的次数。在此表中，评分标准按正确性降序列出。表11 - 1显示了一些有趣的结果。首先，AIC评分在小样本量上表现得相当好，但在大样本量下其性能下降。与其他BN评分不同，AIC评分中的DAG罚分不随样本量增加而增加。第二，MDR总体表现良好，但比表现最好的评分差得多。第三，BDeu评分在中等α值时获得最佳结果。然而，对于大的α值，结果非常差，其分配非常小的DAG惩罚。

但是，具有较大值的分数在正确模型（只有两个相互作用的SNP的模型）得分最高时表现不佳，因为他们经常选择包含这些SNP的较大模型。为了研究这种可能性，我们研究了分数发现模型55-59的程度（参见[36]中的补充表1）。这些模型具有最弱的遗传力（0.01）和0.2的次要等位基因频率，因此最难检测。

表11.3显示了一组代表性评分中，正确的难以检测模型得分最高的次数。α值较大的BDeu评分的表现明显优于所有其他评分。

在所有检查的分数中，具有大α值的BDeu分数在识别困难模型方面最好;然而，当考虑所有模型时，总体上这些分数表现不佳。对这种现象的解释是，这些评分确实比α值较小的评分更能评价相互作用的SNP。当相互作用的SNP相当容易识别时，具有大α值的BDeu评分的较大DAG罚分使其相对于其他评分更难识别正确的模型。另一方面，当相互作用的SNP难以检测时，它们更好的检测能力超过补偿它们增加的DAG罚分。

11.5模型空间的搜索

正如在介绍中提到的，除了选择一个合适的评分标准的困难，第二个挑战是设计一个有效的搜索算法。特别是，在高维GWAS数据中学习上位相互作用时存在组合爆炸。因此，研究者们致力于开发启发式搜索算法。本节描述了在[19]中开发的一个这样的算法。

一种称为贪婪等价搜索（Greedy Equivalent Search，GES）的二次BN学习算法[5]将学习表示概率分布的最简洁的DAG，前提是评分标准是一致的（一致的评分标准将相同的分数分配给表示相同条件独立性的等价DAG），并且概率分布允许忠实的DAG表示并萨蒂斯组合属性。读者可参考[26]对这些假设的讨论。布里，该算法从空的达格开始，依次贪婪地将最能增加分数的边添加到达格，直到没有边增加分数。然后，按顺序，算法从DAG中删除删除使分数增加最多的边，直到没有边降低分数。

学习上位相互作用的初始策略可能是尝试通过使用GES算法搜索所有DDAG来学习相互作用的SNP。然而，更彻底的检查表明这是行不通的。假设我们在两个SNP和疾病变量D之间存在真正的上位关系，并且所有其他SNP都与D无关。因此，每个SNP本身独立于D。进一步假设，我们有一个数据集如此之大，以至于生成分布在数据集中精确地表示。在这种情况下，如果满足算法中的假设，则GES算法将学习正确的DAG。然而，在算法的第一步，所有SNP的得分都是相同的，因为它们都独立于D，它们都不会增加得分，算法将停止。

上位关系不满足GES算法成功所必需的组合属性。组成特性意味着，如果疾病同时依赖于SNP S1和S2，那么它本身必须依赖于其中至少一个。很明显，如果S1和S2相互作用而导致疾病，那么疾病本身就独立于它们中的每一个。我们可以通过使用贪婪搜索扩展每个SNP，而不是仅扩展最初增加得分最多的单个SNP，来突破上位性学习的障碍。通过这种方式，我们将详细研究每个2-SNP组合。如果发生上位性，我们将对参与上位性关系的两个SNP进行评分。一旦我们对其中的两个进行评分，我们通常也应该发现可能的第三和第四个SNP，等等。算法如下。在该算法中，score（Ai）表示具有从Ai到D中的SNP的边的模型的得分：

我们称这种算法为多波束搜索（MBS）。在最坏的情况下，它显然需要O（n的2次方）时间，其中n是SNP的数量。然而，在实践中，如果数据集很大，我们将在第一步中添加最多m个SNP，其中m是一个参数。时间复杂度为O（mn的2次方）。

如果k个SNP和D之间存在概率依赖性，但k个SNP的每个真子集独立于D，则该技术不起作用。这种情况称为纯严格上位性。MBS算法对于处理上位关系是有效的，其中我们有k个相互作用的SNP，每个SNP在概率上独立于疾病，并且疾病和至少一对相互作用的SNP之间存在一定的概率依赖性。

11.5.1实验

方法

使用第11.4.2小节开始时讨论的合成Velez数据集，我们比较了以下两种方法：（1）使用BN评分并查看所有1-SNP，2-SNP，3-SNP和4-SNP DDAG（这种方法称为BayCom）;（2）使用相同的BN评分并使用MBS进行搜索，最多在第一步中添加m=4个SNP。

结果

表11 - 4显示了在所有7000个数据集上正确模型得分最高的次数。表11.5显示了运行时间。MBS在识别正确模型方面的表现与BayCom一样好，速度高达28倍。

11.6判断一个模型是否值得注意

11.6.1贝叶斯网络后验概率(BNPP)

11.6.2先验概率

11.6.3实验

表11.6显示了10个最可能的模型中的基因座。APOE的后验概率约为1，与SNP rs41377151一样。SNP rs41377151位于APOC 1基因上，该基因与APOE处于强连锁不平衡（LD），并且先前的研究表明这两个基因同样能很好地预测LOAD [34]。第三个最可能的基因座是rs1082430，位于PRKG1基因上。有许多先前的研究将该基因与LOAD相关联[10]，[21]。在剩下的七个可能的位点中，有一些先前的证据将其中四个与LOAD联系起来[31]。