论文解读:《PLP_FS: prediction of lysine phosphoglycerylation sites in protein using support vector machine and fusion of multiple F_Score feature selection》
文章地址:https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbac306/6655632?login=false
DOI:https://doi.org/10.1093/bib/bbac306
期刊:BRIEFINGS IN BIOINFORMATICS
2021年影响因子/JCR分区:13.994/Q1
发布时间:2022年 8 月 4 日
Web在线服务器:https://plpfs.herokuapp.com/
数据:https://plpfs.herokuapp.com/download
1.文章概述
磷酸甘油化是一种新发现的翻译后修饰 (PTM),已验证出其在蛋白质的构建和功能特性以及危险的人类疾病中的重要作用。因此,迫切需要了解磷酸甘油化过程背后的分子机制,以开发相关疾病的药物。但在实验室中准确识别蛋白质序列中的磷酸甘油化位点是一项非常困难和具有挑战性的任务。因此,为此目的,非常需要构建有效的计算模型。目前有少量计算模型可用于识别磷酸甘油化位点,这些位点无法达到令人满意的预测能力。因此,作者设计并构建了一个名为 PLP_FS 的有效预测因子来识别本研究中的磷酸甘油化位点。为达到训练目的,通过融合多种F_Score特征选择技术,从三种基于序列的特征提取方法生成的特征中获得最优的特征集数量,并将其与支持向量机分类技术拟合到预测模型中。另一方面,还实施了 K 最近邻(k-nearest neighbors, KNN) 清洗和 SMOTE 方法来平衡基准数据集。根据实验结果,所提出的方法在10倍交叉验证上获得了99.22%的准确度(accuracy, ACC)、98.17%的灵敏度(sensitivity, SN)和99.75%的特异性(specificity, SP),优于目前其他可用的准确识别磷酸甘油化位点的预测因子。
2.背景
蛋白质合成后的生化变化过程称为翻译后修饰 (PTM)。蛋白质组的功能多样性主要取决于各种类型的 PTM。众所周知,蛋白质由二十种标准氨基酸组成,其中赖氨酸是一种经过大量修饰的氨基酸。根据研究工作,已经检测到大量称为 PTM 的生化变化,如乙酰化、甲基化、磷酸化、苏木酰化、巴豆酰化、泛素化、琥珀酰化、磷酸甘油化、蛹化、羟基化等。也与赖氨酸残基有关。这些 PTM 还直接或间接导致各种类型的人类疾病,包括冠心病、血压、神经退行性疾病、氧化应激、糖尿病、肿瘤和癌症。
一种新发现的称为磷酸甘油化的 PTM 主要见于人和小鼠的肝脏。由初级糖酵解中间体 (1,3-BPG) 和赖氨酸残基之间的反应形成 3-磷酸甘油基-赖氨酸 (pgk) 的过程称为磷酸甘油化。它是一种非酶修饰,由于与糖酵解和葡萄糖代谢过程有关,因此与心血管疾病高度相关。它还负责阻碍糖酵解酶和改变各种生物合成途径。因此,鉴定该PTM对于更好地了解其特性和生物学机制,开发相关疾病的基本药物是一项非常必要的工作。
目前,已应用各种基于实验室的方法从蛋白质序列中识别磷酸甘油化位点。但与计算方法相比,这些传统方法需要大量的时间和金钱。由于这个原因,计算方法在 PTM 的识别和研究领域变得越来越流行。所以,一种有效的计算方法对于更准确地预测赖氨酸磷酸甘油化位点至关重要。
尽管近年来已经建立了一些计算方法,但它们无法达到令人满意的预测能力。为了进一步提高对磷酸甘油化和非磷酸甘油化位点的分类能力,作者在本研究中提出了一种名为 PLP_FS 的新计算模型,该模型利用包括 K空间氨基酸对的组成(Compositon of k-spaced Amino Acid Pairs,CKSAAP)、氨基酸组成 (amino acid composition,AAC) 和二进制编码 (binary coding,BE) 在内的蛋白质序列的顺序特性。然后,应用 k 最近邻清理处理和过采样方法来平衡基准数据集。由于特征向量是高维的,因此实现了多种 F_Score 特征选择技术的融合,用于选择一组最优特征。最后,使用支持向量机分类算法处理平衡数据集来训练所提出的模型。PLP_FS对指标SN、SP、ACC、MCC和AUC的预测能力分别为99.22%、98.17%、99.75%、98.28%和99.96%,证明了PLP_FS方法在 10 倍交叉验证上比其他现有模型具有更好的性能。
3.数据
蛋白质赖氨酸修饰数据库 (PLMD)是一个众所周知的资源,其中包含用于各种 PTM 位点的大量蛋白质。本研究使用属于 PLMD 的蛋白质生成了基准数据集。共收集了 134 种含有赖氨酸磷酸甘油化位点的蛋白质。然后,使用 CD-HIT 工具以 40% 同一性的标准去除冗余蛋白质,最终得到 90 个非冗余蛋白质,其中包含 103 个带注释的赖氨酸磷酸甘油化位点和 3626 个赖氨酸非磷酸甘油化位点。之后,使用窗口大小为 21 的滑动窗口技术分割所有蛋白质序列以生成肽片段样本。作者使用了一个虚拟残基“X”来确保在中心含有赖氨酸残基的每个蛋白质片段的长度相同。在选择窗口大小 21 之前,分别使用从 7 到 31 的各种窗口大小长度来评估模型,以确定构建更好模型的窗口的最佳大小。 当选择窗口大小21时,所提出的模型提供了更好的预测精度。含有赖氨酸磷酸甘油化位点的肽片段被归类为正样本,其他被归类为负样本。最后,所构建的基准数据集分别包含 103 个正样本和 3626 个负样本。
4.方法
4.1 特征提取
4.1.1 K空间氨基酸对的组成(Compositon of k-spaced Amino Acid Pairs,CKSAAP)
在这种方法中,从一个蛋白质片段中计算出由 k 个残基分隔的氨基酸对的出现。对于 n 型氨基酸,对于每一个 k 值,可以获得 n × n 类型的氨基酸对。在这项研究中,作者使用了包括虚拟氨基酸在内的 21 种氨基酸,并取每个长度为 21 的肽片段。因此,当 k = 1 时,可以根据以前的研究使用以下方程:
其中 NTotal表示片段中 1 间隔氨基酸对的总数,L 表示肽片段的长度。在作者的研究中,取 4 作为 k 的最大值,对于 k = 0、1、2、3 和 4,分别得到 NTotal的值。因此,使用该方法为每个肽片段获得了2205维的特征向量。
4.1.2 二进制编码 (binary coding,BE)
它是一种常见且流行的特征提取技术,可以从蛋白质序列中生成数字特征向量。由于其简单性和有效性,它也已用于不同类型的 PTM 位点预测,包括丙二酰化、乙酰化、琥珀酰化和甲酰化。在本研究中,所有考虑到用于确保每个蛋白质片段长度相同的虚拟氨基酸“X”的氨基酸都被排序为“ACDEFGHIKLMNPQRSTVWYX”。根据该方法,将一个氨基酸表示为 21 维的特征向量,例如氨基酸丙氨酸 (A) 表示为“00000000000000000000”,虚拟氨基酸“X”表示为“000000000000000000001”。因此,对于长度为 L 的蛋白质片段,可以得到一个 L∗21 维的特征向量。在本研究中,作者使用窗口大小 21 来生成蛋白质样本,得到一个 21×21 = 441 维的特征向量来编码一个蛋白质分段。
4.1.3 氨基酸组成(Amino acid composition,AAC)
它是另一个简单而流行的特征描述符,它反映了肽片段的顺序信息。对于肽片段,AAC 技术计算每个氨基酸的出现频率。在这项研究中,使用了一种虚拟氨基“X”酸和 20 种天然氨基酸来生成蛋白质片段样品。所以,计算了包括虚拟氨基酸 X 在内的每个氨基酸的出现次数,并获得了给定蛋白质片段的 21 维向量。根据先前的研究,L 长度肽段的特征提取过程由以下等式 3 表示:
其中 Pk = fk/L , k = 1,2, 3, . . . …, 21,Vx 表示蛋白质片段 X 的 21 维特征向量,fk表示氨基酸 K 的频率,Pk表示其概率,L 是该蛋白质片段的长度。
4.2 不平衡数据处理
本研究中使用的基准数据集由 103 个带注释的赖氨酸磷酸甘油化位点和 3626 个赖氨酸非磷酸甘油化位点生成。因此,正负样本之间几乎 1:36 的比例是导致基准数据集高度不平衡的原因。使用高度不平衡的数据集训练的分类器会偏向多数类。此外,实验证明了属于 PLMD 数据库的磷酸甘油化位点。另一方面,3626 个非磷酸甘油化位点在该数据库中没有被明确注释和提及为非磷酸甘油化位点。因此,这些样品很可能是磷酸甘油化位点。所以,解决数据集不平衡问题并从非磷酸甘油化子集中选择可靠的非磷酸甘油化样本用于生成有效模型非常紧迫。由于这些原因,本研究中应用了 k-最近邻清洗处理程序,以选择可靠的非磷酸甘油化位点,并解决数据不平衡问题,就像之前针对各种 PTM 位点预测的其他研究一样。因此,从非磷酸甘油化样本中移除了作为磷酸甘油化位点的 k 个邻居之一的实例,以平衡数据集。由于不平衡比为 1:36,因此将 36 作为清洗处理的 k 初始值。然后,k 的值进一步降低,直到从基准数据集中删除几乎三分之一的非磷酸甘油化位点。当作者取 21 作为 K 值时,得到了 2036 个可靠的非磷酸甘油化样品。但是得到的基准数据仍然不平衡。
所以实施了合成少数过采样 (SMOTE) 来合成新的磷酸甘油化样品。 SMOTE是一种简单且广泛使用的过采样方法,用于通过合成新的附加少数样本来平衡数据集。它之前已被用于多项研究,包括 PTM 位点预测,蛋白质-蛋白质相互作用位点预测等。如果 n 是样本选择比,则 C1, C2, C3, . . . . . . , Cn 样本是从给定正样本 x 的 k 个最近邻中随机挑选的。然后,通过在正样本 x 和 C1、C2、C3、…之间进行随机线性插值运算,使用等式 4 构建新的磷酸甘油化(正)样本 xnew:
其中 rand (0,1) 是随机生成的介于 0 和 1 之间的数字。
在作者目前的实验中,通过利用 SMOTE 方法将正样本的数量提高到了 1018 个,以建立一个平衡的数据集,磷酸甘油化和非磷酸甘油化样本之间的比例为 1:2。因此,用于生成预测模型的基准数据集有 1018 个正样本和 2036 个负样本。然后,将基准数据集分为训练数据和独立数据集。训练数据集包含 819 个磷酸甘油化样本(正样本)和 1624 个非磷酸甘油化样本(负样本)。另一方面,独立数据集包含 199 个磷酸甘油化样本(正样本)和 412 个非磷酸甘油化样本(负样本)。
4.3 特征选择
在这项研究中,集成技术与多种 F_Score 特征选择方法一起用于选择有用的特征来训练所提出的模型。F_Score 特征选择方法已在以前的各种研究中详细描述。首先,使用 F_Score 方法结合 SVM 分类器从每种类型的特征集中选择每种类型的最佳特征集,分别从 CKSAAP、BE 和 AAC 特征集中得到了 31、30 和 3 个最优特征。
在实施图 2 中所示的特征选择集成技术后,作者仅获得了 64 个最优特征用于所提出模型的训练目的。图 3 还显示了每种类型的最佳特征的分布。
因此,作者使用了组合所有类型特征获得的 64 个最佳的特征集,以生成更强大的预测模型,以更准确地识别蛋白质的磷酸甘油化位点。
5.结果与讨论
5.1 赖氨酸磷酸甘油化位点相邻残基的分析
序列标识提供了多个比对的氨基酸序列的图形表示。每个氨基酸在该位置的相对出现由序列标志中符号的高度表示。在这项研究中,磷酸甘油化赖氨酸和非磷酸甘油化赖氨酸周围的每个氨基酸的分布和相对频率由称为两个样本徽标的序列徽标图形表示,就像其他先前的研究。它由三部分组成,上下部分代表特定位置的富集和耗尽的残基,中间部分表示正负样本的完整共识基序。因此,上部和下部代表部分一致的基序。从两个样本徽标中获得的结果如图 4 所示,其中赖氨酸残基位于肽片段的中心,侧翼氨基酸位于 -10 到 10 的位置。
各种氨基酸的位置差异和分布会影响赖氨酸的磷酸甘油化过程,并在区分非磷酸甘油化和磷酸甘油化位点方面具有重要作用。所以,使用频率相关特征 AAC 和 CKSAAP 以及位置相关特征 BE 来提取样本特征至关重要。
5.2 特征编码方法对预测性能的影响
由于使用单一特征编码技术获得的特征向量并不总是能够表征磷酸甘油化位点,因此通过融合三种特征提取方法构建了一个称为 ALL 的特征空间,以获得有关每个肽片段的更有用的序列信息。然后,通过结合 AAC、BE 和 CKSAAP 的最优特征,生成另一个称为 ALL (opt) 的特征集。因此,作者提出的模型分别用每种不同的特征编码技术、特征融合和最优特征融合进行训练,以分析各种特征提取技术的性能,得到的结果总结在表 2 中。从表 2 中显示的分析结果,对于每种特征提取方法,训练数据集上磷酸甘油化位点的预测精度是不同的。一般来说,与单一特征编码方法中的其他方法相比,基于 Acc 序列的特征可以提取更多有用的蛋白质序列信息。
5.3 分析特征选择对PLP_FS预测性能的影响
在这项研究中,使用集成技术选择有用的特征,使用 F_Score 特征选择方法来训练所提出的模型。首先,使用基于10倍交叉验证的SVM分类器,应用F_Score方法从每种类型的特征集中选择每种类型最佳特征集。在组合每种特征编码方法的所有最优特征集后,得到了一个名为 ALL (opt) 的特征集,其中仅包含 64 个最优特征,用于所提出模型的训练目的。然后,分别用AAC、BE、CKSAAP和ALL(opt)的最优子集训练PLP_FS模型,得到的对应结果如表3所示。本研究中获得的最佳特征子集能够提高蛋白质磷酸甘油化位点预测性能。
5.4 其他分类算法的选择
使用随机森林 (random forest,RF)、决策树 (decision tree ,DT)、逻辑回归 ( logistic regression,LR)、K-最近邻 (K-nearest neighbor,KNN)、朴素贝叶斯 (Naïve Bayes,NB) 和支持向量机(support vector machine,SVM) 来预测磷酸甘油化位点并验证最优特征集的有效性几个分类器。在这项研究中,使用 10 折交叉验证来科学地检验这些机器学习方法的预测性能和有效性。该结果表明,SVM 可以提供最佳性能以及最经济的计算。
5.5 与其他现有模型的比较
5.5.1 十折交叉验证
5.5.2 独立测试
6.Web server
使用 Python 的 Flask 框架构建了一个 Web 服务器,用于识别蛋白质序列上的磷酸甘油化位点。用户可以在 https://plpfs.herokuapp.com/ 免费获得和访问它。可以在主页上输入单个蛋白质序列以用作输入,服务器使用滑动窗口方法生成中心具有赖氨酸残基的蛋白质片段集合,然后使用本工作中采用的特征提取技术转换肽段。通过融合多种 F_Score 方法找到特定有用的特征后,服务器利用训练好的模型对样本进行分类。最后,网站返回请求的结果,包括蛋白质片段、残基位置以及残基是磷酸甘油化还是非磷酸甘油化。如果输入的蛋白质序列已经用于构建该模型,则新鉴定的赖氨酸残基磷酸甘油化修饰用蓝色标记,其他注释的赖氨酸残基磷酸甘油化修饰用红色标记。否则,所有已识别的赖氨酸残基磷酸甘油化修饰都用蓝色标记,用于候选蛋白质。
7.总结
蛋白质翻译后修饰影响细胞中的多种关键生物活性,对生命至关重要。例如,蛋白质功能、细胞信号和应激反应是重要的生物过程,它们都受到磷酸甘油化的影响。面对海量的遗传翻译后修饰位点数据分析,传统的实验方法无法满足当前研究的预期,使用机器学习模型预测蛋白质翻译后修饰位点正在成为生物信息学的热门课题。本研究提出了一种预测蛋白质磷酸甘油化位点的新技术 PLP_FS。首先,使用 AAC、BE 和 CKSAAP 特征生成方法来捕获特征信息。然后,使用k-近邻清洗处理方法处理数据不平衡,并使用F_score过程消除冗余特征信息,以获得最佳特征子集。然后,它在所提出的用于预测磷酸甘油化位点的模型中实现。最后,为了评估模型的预测能力,使用了10倍交叉验证技术,准确率达到了98.88%,高于其他技术。用于选择每种有用特征的 F_Score 特征选择方法的集成技术的实施提高了所提出模型的预测性能。因此,与使用相同基准数据的其他技术相比,PLP_FS 方法表现良好。因此,PLP_FS 是一个强大的机器学习系统,用于预测磷酸甘油化位点,可提供改进的预测结果,并可用于各种 PTM 位点预测任务。
8.关键点
- 开发了一种名为 PLP_FS 的有效模型,用于识别蛋白质中的磷酸甘油化位点。
- 通过 AAC、BE 和 CKSAAP 特征提取技术提取特征。
- 通过融合多种F_Score 特征选择技术获得最优特征集数量,并拟合SVM 分类技术以
生成预测模型。 - 在 10 倍交叉验证和独立测试中,作者提出的模型在其他最先进的方法上的表现明显优于其他方法。