Title:PhosVarDeep: deep-learning based prediction of phospho-variants using sequence information
期刊:PeerJ
中科院分区:3区
影响因子:3.061
发布时间:2022.3.142.
Web在线服务器:无
GirHub:
目录
5.1 Determining the PhosFEN model
5.2 Performance evaluation of PhosVarDeep
5.3 Comparison with existing methods
1. 摘要
人类在DNA测序揭示了许多与复杂疾病相关的单核苷酸变体。研究人员表明,这些变体对蛋白质功能有潜在的影响,其中之一是破坏蛋白质磷酸化。基于常规的机器学习算法,已经开发了几种用于预测磷酸化变异物的计算方法,但是它们的性能仍然留下了相当大的改进空间。近年来,深度学习已通过其有效的序列模式学习能力成功地应用于生物序列分析中,这为改善基于蛋白质序列信息的磷酸化变化预测提供了强大的工具。在研究中,我们提出了Phosvardeep,这是一个新型的统一深度学习框架,用于磷酸化的预测。 Phosvardeep将参考序列和变体序列作为输入,并采用类似暹罗的CNN结构,其中包含两个相同的子网和一个预测模块。在每个子网中,一般的磷酸化序列特征是通过预先训练的序列特征编码网络提取的,然后馈入CNN模块以捕获变体磷酸化序列特征。之后,引入了一个预测模块以整合两个子网的输出并生成磷酸化变量的预测结果。磷酸化变化数据的全面实验结果表明,我们的方法显着改善了磷酸化体变量的预测性能,并与现有的常规机器学习方法进行了有利的比较。
2.背景
如今,人类DNA测序研究揭示了数百万个核苷酸变体,这些变体已被证明与癌症和心血管疾病等复杂疾病显着相关。尽管已经发现了数百万个变体,但它们对产生的RNA或蛋白质产品的确切影响通常仍然未知。这些变体对蛋白质功能的潜在影响之一是破坏翻译后修饰,尤其是蛋白质磷酸化,因为磷酸化是最无关的后变质后修饰和播放的磷酸化和播放。在理解由变化引起的信号通路变化中的重要作用。因此,识别和理解影响磷酸化状态的变体对于细胞生物学,疾病治疗和预防的研究至关重要。在这里,我们遵循先前的研究使用术语“磷酸变化”来指代影响氨基酸的磷酸化状态的变体。本文中使用的磷酸变异的示例包括那些修改S /T /Y残基或相邻残基的变体,即III型,II型和III型III类型和类型III。
实际上,据报道,有许多能够影响蛋白质磷酸化的磷酸变体。例如,PhosphositePlus PTMVAR数据集中包括超过19,000个错义突变,该数据集属于以实验识别的磷酸化位点为中心的15个残留窗口,并可能破坏现有的现有磷酸化位点或引入新的磷酸化位点站点。同时,还开发了几个数据库,以分类变异对潜在磷酸化位点的可疑影响。例如,Ryu等人。 (2009年)搜索已知的磷酸化变异物,并预测pep磷phy磷在人类变异中的其他可能的磷酸变化,然后将其纳入磷酸化变量数据库中。随后,通过与人类上的23,978个磷酸化位点匹配的弦,Ren等人。 (2010年)检测潜在的磷酸变化,并将其编译到PhossNP数据库中。
与提供数据库的上述方法相反,有几种基于常规机器学习算法来检测和分析磷酸化变量的方法。例如,Wagih,Reimand&Bader(2015)开发了一种基于贝叶斯统计的方法,称为突变对磷酸化的影响(MIMP),该方法构建了位置权重矩阵和训练高斯混合物模型,以预测变体对磷酸化位点的功能。随后,Patrick等人在以前的磷酸化位点预测的贝叶斯网络模型上建立。 (2017年)提出了一种称为Phosphopick-SNP的有效方法,用于量化变体对蛋白质磷酸化状态的预期影响。磷杆菌-SNP方法从围绕含有错义突变的潜在磷酸化位点的一对参考和变异蛋白序列获得了预测评分,然后将它们结合在一起以分析变异对蛋白质磷酸化的影响。这样,Patrick等。 (2017)预测已知的磷酸变体对磷酸化的影响,并构建了蛋白质组范围预测的变体效应的背景分布,以检测新的磷酸化体示例。
最近,作为一种不断有前途的机器学习技术,深度学习在许多领域(如图像识别)(Rawat&Wang,2017)和自然语言理解(Collobert等,2011)取得了显着突破。与传统的机器学习技术相比,深度学习方法具有独特的优势,可以自动发现下游任务所需的复杂表示。其中,卷积神经网络(CNN)(Krizhevsky,Sutskever&Hinton,2017年)在生物序列分析中已成功进行了其学习序