TREE用于识别癌症基因

图表示学习已被用于从生物网络中识别癌症基因。然而,可解释性和泛化性不足是巨大限制。TREE被用于解决该挑战,模型通过利用图表示学习以及结合多组学数据中同质和异质生物相互作用网络的拓扑结构,用于准确预测癌症基因。TREE在泛癌症和癌症特定场景中跨生物网络(包括 miRNA 与蛋白质、转录因子与蛋白质以及转录因子与 miRNA 之间的相互作用网络)预测癌症基因方面取得了最先进的性能,并在 8 个泛癌数据集中的 4,729 个未标记基因中预测了 57 个癌症基因候选基因(包括其他模型尚未识别的三个基因)。该模型的可解释性和泛化性可能有助于理解基因相关的调控机制和发现新的癌症基因。

来自:Interpretable identification of cancer genes across biological networks via transformer-powered graph representation learning,Nature Biomedical Engineering,2025

背景概述

全面了解人类癌症基因是探究肿瘤致癌机制的重要基础。人们普遍认为,累积性的基因组变异是癌症形成和发展的根本原因。这些恶性基因组变异包括基因单核苷酸变异(SNV)、基因拷贝数变异(CNA)等。根据国际癌症研究机构(IARC)的统计,癌症在2020年已造成全球超过996万人死亡。因此,鉴定癌症基因对于理解各种癌症机制起着至关重要的作用,从而促进癌症的个性化和精准治疗的发展。

高通量技术的发展使得人们对癌症基因变异的调查范围不断扩大,并构建了多个完善的数据库,如癌症基因组图谱 (TCGA) 和国际癌症基因组联盟 (ICGC),以维护大量的人类基因突变数据。由于观察到癌症基因比非癌症基因更容易反复突变,数百种癌症基因已通过系统的基因组学分析得到识别,并由公共存储库进行全面注释,如癌症基因网络 (NCG) 和 COSMIC 癌症基因普查 (CGC) 数据库。然而,已知癌症基因目录 (KCG,known cancer genes) 还远未完成。原因有两个方面。一方面,并​​非所有癌症基因都具有较高的突变频率。尤其是肺腺癌研究显示,大多数癌症基因的突变频率仅为2%−20%,这与我们对突变频率的一般认识不一致。另一方面,癌症的产生是一个复杂的过程,涉及不同类型的基因组改变以及各种分子之间的相互作用,包括但不限于蛋白质、微小RNA(miRNA)、长链非编码RNA(lncRNA)和转录因子(TF)。

随着人工智能的发展,近年来在有效识别癌症基因方面取得了长足的进步。根据所使用的数据,这些进步大致可分为两类:

  • 基于多组学数据基于网络
  • 第一类计算方法基于基因的原始多组学数据实现识别任务。具体而言,它们倾向于捕捉与在不同类型的基因组癌症数据中观察到的客观事实一致的潜在模式,然后根据这些模式识别癌症基因。然而,它们未能从网络角度对基因之间的交互行为进行建模。
  • 为了应对这一挑战,已经开发出基于网络的方法,通过从蛋白质-蛋白质相互作用 (PPI) 网络中提取癌症基因的特征来区分癌症基因。在这个网络中,节点代表基因编码的蛋白质,边代表蛋白质之间的物理或功能相互作用。为了提高识别性能,通常采用基于矩阵分解 (MF) 和基于随机游走 (RW) 的方法将基因映射到低维潜在特征空间上。
  • 近年来,图卷积网络(GCN)、图注意力网络(GAT)等图表示学习(GRL)模型因其强大的表达能力而受到广泛关注,并被广泛应用于癌症基因的精准识别。与基于MF和RW的方法相比,采用GRL获取基因嵌入的网络方法在整合基因多组学数据和生物网络信息方面更具有优势,能更好地识别癌症基因。然而,在临床肿瘤学实践中,当前新的基于网络的方法的适用性受到网络分析下可解释性和泛化能力不足的限制。

开发可解释的识别方法对于从计算角度研究癌症基因的分子起源至关重要。在基于网络的方法领域,人们已经进行了多次尝试来整合基因的多组学数据。他们的目标是确定用于识别癌症基因的最具影响力的组学数据类型。该领域最值得注意的工作之一是 EMOGI,它是一种基于网络的可解释的开创性方法。EMOGI 在从多组学角度解释其结果方面取得了长足的进步。然而,仅仅依靠多组学数据和局部网络结构不足以全面了解癌症基因背后的功能机制。更具体地说,癌症基因与其他分子(如 miRNA、lncRNA 和 TF)之间的相互作用在揭示癌症基因的改变如何促进特定癌症的形成和发展方面起着结构性作用。例如,TP53 和

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值