癌症频繁突变子网络高效分支切割算法研究
1 引言
癌症主要由个体基因组中的体细胞突变驱动。在大规模癌症研究中,一大挑战是从肿瘤基因组中数以百计或千计的突变里,找出少数引发癌症的驱动突变。近年来,DNA测序技术的进步让癌症基因组研究达到前所未有的细致程度,能够测量大量癌症患者的体细胞突变。不过,每个肿瘤都有数百或数千个体细胞突变,不同肿瘤的体细胞突变组合差异很大,即存在肿瘤间的癌症异质性。
这种异质性源于癌症基因组中只有少数体细胞突变是与疾病相关的驱动突变,多数是与癌症进展和发展无关的乘客突变。而且,驱动突变会影响调控和信号通路,这些通路由相互作用的基因群组成,对细胞执行特定功能至关重要,任何一个基因的突变都可能改变通路。所以,要识别驱动突变及其影响的基因,不能孤立地研究基因,而要在相互作用网络的背景下研究突变。
近年来,人们提出了多种方法来识别癌症中显著突变的通路。部分方法基于已知通路,这限制了发现新通路以及连接两个对癌症重要的通路的子网络的能力。其他方法则将突变数据与大型蛋白质 - 蛋白质相互作用网络结合。常见的做法是寻找在大量患者中发生突变的连通子网络,这等价于找到其顶点覆盖大量患者的连通子网络。其中,有人定义了连通最大覆盖问题(CMCP),即找到一个基数为 k 的连通子网络,使其覆盖的患者数量最多,该问题已被证明是 NP 难问题,并且有人提出了近似算法。
本文提出了一个用于 CMCP 的整数线性规划(ILP)公式,它借鉴了最近用于 Steiner 树问题的类似公式。由于连通性约束会导致指数数量的约束条件,我们在分支切割框架内处理这些约束。我们的算法能在真实癌症数据集上找到 CMCP 的最优解,与先前的启发式方法或近似算法相比,所识别的解能覆盖更多患者,且
超级会员免费看
订阅专栏 解锁全文
371

被折叠的 条评论
为什么被折叠?



