论文解读:《iRice-MS: An integrated XGBoost model for detecting multitype post-translational modification sites in rice》
文章地址:https://academic.oup.com/bib/article-abstract/23/1/bbab486/6447435?redirectedFrom=fulltext#supplementary-data
DOI:https://doi.org/10.1093/bib/bbab486
期刊:BRIEFINGS IN BIOINFORMATICS
2022年影响因子/JCR分区:13.994/Q1
发布时间:2021 年12月 2日
Web在线服务器:http://lin-group.cn/server/iRice-MS/`
1.文章概述
翻译后修饰 (PTM) 是指蛋白质生物合成后对蛋白质进行共价和酶促修饰,协调各种生物过程。在蛋白质组规模上检测PTM位点是深入了解其调控机制的关键步骤之一。在这项研究中,作者提出了一种基于XGBoost 的集成方法,称为:iRice-MS,用于识别水稻中的 2-羟基异丁酰化、巴豆酰化、丙二酰化、泛素化、琥珀酰化和乙酰化。对于每个PTM特定模型,作者采用了八种特征编码方案,包括基于序列的特征、基于物理化学性质的特征和基于空间映射信息的特征。从每种编码中识别出最优特征集,并建立它们各自的模型。经大量实验结果表明,iRice-MS在 5 折交叉验证和独立数据集测试中可以表现出优异的性能。此外,作者所提出的新方法在 AUC 值方面优于其他现有工具。最后基于所提出的模型,建立了一个名为 iRice-MS 的 Web 服务器。
2.背景
翻译后修饰(PTMs)是前体蛋白的共价修饰,对调节多种生物学功能具有重要意义。 PTM 与几乎所有已知的代谢过程和细胞通路有关,例如 DNA 修复、转录调控、信号通路、蛋白质-蛋白质相互作用、细胞凋亡和细胞死亡。越来越多的证据支持这样的观点,即 PTM 可以通过不同类型的修饰位点广泛扩展蛋白质组的多样性和复杂性。随着最近现代蛋白质组学技术的进步,已经确定了越来越多的组蛋白和非组蛋白中的 PTM。特别是,由于其独特的化学反应性,酰化是最常见的 PTM 之一,例如 2-羟基异丁酰化 (Khib)、巴豆酰化 (Kcr)、丙二酰化 (Kmal)、泛素化 (Kubi)、琥珀酰化 (Ksu)和乙酰化 (Kac)。
水稻(Oryza Sativa)是具有很大研究价值的典型单子叶植物,也是世界约一半人口的主食。迄今为止,全基因组重测序和深度蛋白质组学分析使水稻成为蛋白质水平上注释最广泛的农作物。基于质谱法已经报道了水稻蛋白质组中大量 PTM 的大规模分析。然而,基于生化实验的技术耗时耗力,且适应性较差。因此,需要计算方法来指导相关PTM的询问。
在过去的几年里,已经开发了计算方法,特别是基于机器学习 (ML) 的方法,用于预测多个物种中的 PTM 位点。对于 2-羟基异丁酰化,Ju 和 Wang提出了一种名为 iLysKhib 的新型基于 ML 的工具来预测哺乳动物细胞中的 Khib 位点;后来,Wang等人开发了一种特定于物种的在线计算工具,即KhibPred,以识别四种不同物种中的 Khib 位点;随后,Zhang等人设计了一种基于卷积神经网络的深度学习算法,采用One-hot编码的方法DeepKhib,以区分 Khib 和非 Khib 位点。对于巴豆酰化,Huang和Zeng建立了一个名为 CrotPred 的离散隐马尔可夫模型来识别 Kcr 位点;同样,Lv 等人通过将基于序列的特征、基于物理化学性质的特征和数值空间衍生信息与信息增益特征选择相结合,提出了一种基于深度学习的方法,称为 Deep-Kcr 用于 Kcr 位点预测;之后,Liu 等人通过结合各种特征向量和 LightGBM 算法,建立了一种称为 LightGBM_CroSite 的 Kcr 位点预测方法;此外,Chen等人开发了一个基于深度学习的网络服务器,称为 nhKcr,用于对非组蛋白进行 Kcr 位点预测。对于丙二酰化,Xu 等人开发了一个预测器 Mal-Lys,它整合了残基序列顺序信息、位置特异性氨基酸倾向和物理化学特性,以识别 Kmal 位点;Taherzadeh 等人通过使用序列和预测的结构特征提出了SPRINT-Mal 用于识别 Kmal 站点;此外,Chen等人构建了一个基于长短期记忆和词嵌入的深度学习网络分类器,用于预测 Kmal 站点;Liu等人通过结合主成分分析和支持向量机,提出了一种名为 Mal-Prec 的预测模型,用于 Kmal 位点预测。对于泛素化,Wang 等人提出了一种基于进化筛选算法的预测方法 ESA-UbiSite,以识别人类 Kubi 站点;He等人在多种模式中设计了一个深度架构来预测 Kubi 站点;Mosharaf等人构建了一个基于随机森林的预测器以及 CKSAAP 编码方案来识别拟南芥中的 Kubi 位点。对于琥珀酰化,Thapa 等人构建了 DeepSuccinylSite,这是一种新颖的预测工具,它使用深度学习方法和嵌入来根据蛋白质的主要结构识别蛋白质中的 Ksu 位点; Kao 等人通过结合氨基酸组成和信息性 k 间隔氨基酸对,开发了一个基于网络的工具 SuccSite,以识别 Ksu 站点;Ning等人通过将深度学习和传统机器学习算法集成发开了识别 Ksu一个框架。对于乙酰化,Gnad 等人利用人类体内的大量 Kac 位点创建了第一个高精度 Kac 位点预测器;Chen等人基于弹性网络特征优化,提出了一个名为 ProAcePred 的在线工具,用于预测原核生物 Kac 位点。
尽管上述模型报告了预测各种 PTM 位点的良好性能,但一个重要问题是缺乏用于识别水稻中多个 PTM 位点的特定预测因子。因此,为了填补这一空白,作者开发了第一个基于集成极限梯度提升 (XGBoost) 的工具,名为 iRice-MS,用于检测水稻中的 Khib、Kcr、Kmal、Kubi、Ksu 和 Kac 位点。不同特征编码方案、不同分类器的预测性能以及与现有工具的比较表明了 iRice-MS 的鲁棒性。
3.数据
在这项研究中,从文献中收集了经过实验验证的水稻 Khib、Kcr、Kmal、Kubi、Ksu 和 Kac 位点。原始数据的详细信息如表 S1 所示。为了构建方便实用的基准数据集,本文使用固定窗口大小 2n+1 来提取以靶向残基 (K) 为中心并包含 n 个上游和 n 个下游侧翼氨基酸的序列片段。根据使用不同长度窗口的初步评估,最后确定51(n=25)的窗口大小可以最大限度地提高上述 PTM 位点的预测性能。在此基础上,如果一个片段的中心 K 是 PTM 位点,则该片段被定义为正样本;否则,它被定义为负样本。如果上游和下游残基少于 25 个,那么使用假氨基酸 (‘X’) 来创建等长的片段。为了减少修饰蛋白的序列冗余并避免模型过度拟合,使用了 CDHIT 程序,序列同一性阈值为 30%,结果产生了大量的负样本。为了平衡正负数据,采用K-means聚类算法选择非冗余负样本与正样本的比例为1:1。完成所有这些之后,获得每个 PTM 的基准数据集,并以 4:1 的比例随机分为训练数据集和独立数据集。
4.方法
4.1 特征编码
为了构建性能良好的基于机器学习的 PTM 位点预测方法,使用三组特征编码方案来提取序列信息,分别包括基于序列的特征、基于物理化学性质的特征和基于空间映射信息的特征。
4.1.1 基于序列的特征
4.1.1.1 位置重量氨基酸 (Position weight amino acid,PWAA) 组成
已被广泛用于提取目标中心残基周围的序列信息。给定一个氨基酸残基 ai(i = 1, 2,···, 20),ai在2L+1个氨基酸的序列片段P中的位置信息可以通过下式计算:
其中 L 表示蛋白质序列片段 P 中来自中心位点的上游残基或下游残基的数量,如果ai是蛋白质序列片段 P 中的第 j 个位置残基,则 xi,j = 1,否则 xi,j = 0。最后,基于 PWAA 的特征向量的维数为 20。
4.1.1.2 氨基酸相对位置组成(Amino acid relative position composition,AARPC)
作者直接为每个氨基酸残基分配不同的位置整数值并计算氨基酸之间的相对位置。
- 使用从 1 到 20 的数字来编码 20 个氨基酸;
- 给定一个长度为 2L + 1 的蛋白质片段,每个残基距中心的位置记为 d,范围为 [-L, L];
- 对于蛋白质片段上的某个残基,对应的特征向量可以用nd来表示。最后,基于 AARPC 的特征向量的维数为 51。
4.1.1.3 k空间氨基酸对的组成(Composition of k-space amino acid pairs, CKSAAP)
CKSAAP 是最经典的编码方法之一,它反映了氨基酸对之间的短程相互作用。如果一个序列片段的窗口大小为 2L + 1 和 20 种氨基酸,它可能包含 20×20 = 400 种氨基酸对(即 AA、AC、AD、…、YY)。可以使用以下等式计算特征向量:
其中 NTotal 是总组成残基的长度(例如,如果长度为 L 的蛋白质片段残基为 31 且 k = 0、1、2、3、4 和 5,则NTotal = L - k - 1 将是分别为 30、29、28、27、26 和 25)。NAA、NAC、NAD、···、NYY代表片段内氨基酸对的频率。考虑到在本研究中执行 CKSAAP 方案k = 0 , 1 , 2 , 3 , 4 和 5 ,基于 CKSAAP 的特征向量的总维数为 400 × 6 = 2400。
4.1.2 基于物理化学性质的特征
4.1.2.1 成分理化性质(Composition of physical and chemical properties,CPCP)
每个氨基酸残基都有不同的理化性质,可能影响蛋白质的结构和功能。因此,作者利用 20 种氨基酸的 9 种物理化学性质来编码蛋白质片段。九个属性包含:疏水性、亲水性、侧链质量、α-COOH 基团的 pK (pK1)、α-NH+ 3 基团的 pK (pK2)、25°C 时的 pI、刚性、柔韧性和不可替代性。基于此,基于 CPCP 的特征向量的维数为 9 × 51 = 459。
4.1.2.2 基于分组权重的编码 (Encoding based on grouped weight,EBGW)
EBGW 方案根据疏水性和电荷特性将 20 个氨基酸分为四类,可表示为:
然后,根据以下不相交的组对氨基酸进行分配:C1 + C2 对 C3 + C4,或 C1 + C3 对 C2 + C4,或 C1 + C4 对 C2 + C3。对于蛋白质序列 P,它可以转化为三个二进制序列:
每一个二进制序列都可以分成一个长度增加的J个子序列。例如,对于 H1,第 j 个子序列定义为:
其中 Sum(j) 是第 j 个子序列中 1 的个数,D(j) = int (j × L/J)指第j个子序列的长度,函数int()将小数四舍五入到最接近的整数。EBGW 方案将蛋白质序列定义为 3 × J 维向量。这里,J 被选择为 1、2、3、4 和 5。因此,基于 EBGW 的特征向量的维度为 3 × 15 = 45。
4.1.2.3 组成、过渡和分布 (Composition, transition and distribution, CTD)
CTD方案根据极性、中性和疏水性将20个氨基酸分为三类。然后根据其所属的类别,每个氨基酸由 1、2 或 3 编码。
组成 © 描述了 20 种天然氨基酸的总体百分比组成,定义为:
其中 ns 是编码序列中 s 的数量,L 是蛋白质片段序列的长度。
过渡(T) 表征一种天然氨基酸类型后跟另一种类型的氨基酸的百分比频率,可以通过以下方式计算:
其中 nxy 是分别编码为“xy”和“yx”的二肽的数量。
分布 (D) 测量每种类型的 20 种天然氨基酸的第一个,25%、50%、75% 和 100% 的各自位置,描述符 Ei 定义为:
其中 P1、P25、P50、P75 和 P100 分别测量第一个残基的位置,x 的出现率分别为 25%、50%、75% 和 100%。最后,基于 CTD 的特征向量的维度是 (3 + 3 + 3 × 5) × 7 = 147。
4.1.3 基于空间映射信息的特征
4.1.3.1 圆锥特征空间 (Cone feature space, CFS)
这种新颖的特征编码方案是由 Zhang 等人首先提出的,用于识别蛋白质羰基化位点。CFS的基本假设是具有相似理化性质的氨基酸分布在同一个圆锥面上。二十种天然氨基酸首先按理化性质分为四组:
假设每个氨基酸都可以映射到一个点 P(x,y,z)在 3 维空间中,x、y 和 z 可以通过以下公式计算:
其中r代表某种氨基酸的分子量。因此,rij 是第i(i=1、2、3、4)组中第j(j=1、2、···、Ni)氨基酸的分子量。Ni表示第i组中的氨基酸数。φi和 θij可以定义为:
其中,PCjm 表示第m (m = 1, 2, · · · , 9) 的标准值,与CPCP 相同。
然后,某个蛋白质片段的几何中心可以表示为特征向量:
其中a表示氨基酸所属的组; Na表示某个蛋白质片段中属于a组的氨基酸总数;xan、yan、zan分别表示某个蛋白质片段中属于a组的氨基酸对应的坐标值。
基于 CFS 的特征向量的维数为18。
4.2 XGBoost
XGBoost(eXtreme Gradient Boosting)极致梯度提升,是一种基于GBDT的算法或者说工程实现。详情见:【XGBoost的原理、公式推导、Python实现和应用】
5.结果
5.1 序列组成分析
5.2 基于基准数据集的不同 PTM 之间的串扰分析
为了表征串扰底物的功能分布,进行基因本体论(GO)术语的富集分析以选择具有统计学意义的结果。
5.3 XGBoost算法的参数选择
5.4 不同特征的性能评估
5.5 XGBoost 与不同分类器的比较
5.6 模型鲁棒性和可迁移性的性能评估
图(A)为独立测试。
5.7 与最先进方法的预测性能比较
6.结论
在这项工作中,提出了一种基于 XGBoost 的预测模型来同时识别水稻中的 Khib、Kcr、Kmal、Kubi、Ksu 和 Kac 位点。作者进行了各种实验来证明 iRice-MS 比其他现有工具具有更好的性能。此外,还建立了一个名为 iRice-MS 的可免费访问的 Web 服务器。
当然,还有很多方面需要改进。作者总结了以下可以进一步研究的方面。 (i) 显然,XGBoost 中基于信息增益的特征选择方法在处理融合特征时不能产生最佳性能。因此,推测其他非树结构的分类算法更适合融合特征。此外,基于相关系数或卡方检验的特征选择方法在本文的分类任务上可能会比基于信息增益的方法产生更好的性能。 (ii) 以往的研究表明,不同PTM之间的串扰具有协同作用,共同调节基因转录活性。例如,大多数丁酰化和 Kcr 标记的基因也被 H3K9ac 标记并且具有转录活性。因此,挖掘不同串扰之间的分布对于理解植物生长发育和胁迫响应机制具有重要意义。