文章目录
简介
发表期刊:《International Journal of Molecular Sciences》(生物二区,期刊2019年影响因子:4.556)
论文网址:https://www.mdpi.com/1422-0067/21/7/2274
论文作者学校:安徽科技大学
一、论文创新点
提出了两种基于XGBoost算法的不平衡数据处理策略
1.根据正负样本之间的内在关系重新平衡原始数据集,预测蛋白质-蛋白质相互作用位点
2.根据1的基础,提出了一种基于蛋白质进化保守性的蛋白质相互作用位点特征提取方法用于负样本选择,并考虑了正样本和负样本重叠区域对预测性能的影响。
3.并提出了两种降采样方法,即重复最近邻规则(RENN)和实例硬度阈值(instance hardness threshold:IHT),选择可靠性高的非界面残基。
二、介绍
SVM、随机森林、KNN、朴素贝叶斯分类器等计算算法也被应用于PPIs的预测,利用径向基函数神经网络(RBFNN)集模型预测异种复合物中蛋白质相互作用位点的新方法,该方法仅利用蛋白质的进化保守信息(evolutionary conservation information)和空间序列轮廓(spatial sequence profile of proteins),取得了较好的预测结果。目前的数据库中只有少量的蛋白质相互作用位点得到了实验验证,绑定位点高度不平衡,RBFIS (improved radial basis function by SMOTE)提出了基于易集成和平衡级联的降采样方法,Wang等人提出了一种流形学习方法利用聚类算法对原始数据集进行重新平衡,由于随机下采样,在预测蛋白质相互作用位点时可能会丢失一些重要的样本信息,并存在过拟合的风险。
三、结果
使用的数据集为91条非冗余蛋白链,共有10455个表面残基;其中界面残基2297个,非界面残基8158个。该工作从原始的不平衡数据集建立一个平衡数据集,以提高蛋白质序列中蛋白质相互作用位点的预测性能,ACC达到为80.7%,召回率达到81.2%。
(一)、两种平衡模式下的预测性能
RENN会反复去除样品非界面残留和重叠区域的噪声,直到无法去除为止。IHT只能去除非界面残基,与界面残基达到平衡。两种抽样方法处理的数据样本数如下图:

IHT和RENN预测蛋白-蛋白相互作用位点的性能比较,IHT-XGB可以在大多数样本的识别率没有下降的情况下提高少数样本的识别率如下图:

(二)、不平衡和平衡数据集的比较
使用RENN和IHT方法将相同的XGBoost预测器在原始不平衡数据集和平衡数据集上的结果进行比较,不平衡的数据召回率为0.0021,F值为0.0042,特异性也接近于1,说明正负样本不平衡和过拟合的现象,对原始不平衡数据集和重新平衡数据集的预测性能进行比较,如下图:

基于本文提出的两种下采样方法的平衡数据集和原始数据集的预测的详细信息如下图:

四、讨论
(一)、与其他方法比较
比较了预测结果与其他方法在蛋白质相互作用位点识别,使用相同的数据集,将提出的再平衡策略与之前使用相同数据集的四项研究进行了预测性能比较。Wang的工作提取了残基的进化保守性和序列轮廓来推断蛋白质相互作用位点,这已经是一个基准,Kuo和Li开发了一种支持向量机模型,通过提取五种不同的序列特征来预测蛋白质-蛋白质相互作用位点,Liu等人通过温度因子(temperature factor)、序列轮廓(sequence profile)和可达表面积( accessible surface area:ASA)鉴定了蛋白质-蛋白质相互作用位点。Mei等人试图用半监督的方法预测蛋白质-蛋白质相互作用位点支持向量机,这四种方法随机采样进行交叉验证。结果如下

(二)、独立基准数据集的预测性能
使用三个广泛使用的数据集进行独立测试。所有这些都可以从以前的研究中公开:Dset_186,Dset_72和Dset_164包含的绑定的残基数分别是1923、5517、6069。在这三个独立的基准数据集中实现的六个度量值都低于本工作使用的数据集。

(三)、实验结果可视化
为了展示所提出方法的结果,我们使用了一个分子可视化工具pymol来展示我们的预测。图3为1a4y-a蛋白链的卡通形态和球形形态。通过对所涉及的表面残基的预测,我们的方法可以提高整体的预测性能,成功地预测出大部分界面残基和非界面残基。

(四)、预测验证的极限
识别潜在的相互作用位点只是理解蛋白质相互作用影响的第一步,而相互作用是否发生取决于相互作用的结合动力学以及相互作用在细胞内的环境,缔合率( association rates)往往在蛋白质-蛋白质的形成中起着至关重要的作用,这是由成键态和非成键态的自由能差决定的,理论上,蛋白质-蛋白质相互作用的强度可以用解离常数KD = KD /ka来表征,其中KD为解离速率常数,ka为缔合速率常数。许多常用的技术提供度量KD可以通过游离蛋白的浓度来计算,但大多数都不能提供KD和ka的实时测量。在今后的工作中,本工作的预测结果将通过蛋白质-蛋白质对接方法进行验证。
五、训练集
对Ansari和Helms的数据集(包含170种瞬时蛋白相互作用)进行一下两个处理,最后还剩下91个非冗余的蛋白质(总的残基数是10,455,其中表面残基和非表面残基分别是2297,8158个):
- 去除了抗体-抗原相互作用,删除了残留物小于50个的蛋白链对
- 通过BLASTCLUST去除序列相似性大于等于30%
(一)、数据集特征计算
每个蛋白质残基都用进化保护分数来表示。基于进化保守型氨基酸提取出5个特征,包括来自HSSP数据库的4个特征,即残基空间序列、序列信息熵、相对熵和残基序列权重,以及来自Consurf Serve的1个特征,即残基保守分数。利用位于蛋白质表面的11个长度的残基中心滑动窗及其10个最近的邻基对残基的特征向量进行编码。每一个残基都像目标残基一样被矢量化为24维特征。最后,每个残差的264维向量被用来构建未来预测因子。
(二)、不平衡数据集处理
阳性样本在数据集中仅占总样本的21.9%,这将导致对正样本的预测不准确。从蛋白质链表面和界面的定义来看,原始数据集中应该存在一些假阳性和假阴性。原始数据集是由RASA和单链形成蛋白质复合物后碳原子的距离确定的,这是一个硬阈值,不能完全描述界面残基和非界面残基的功能差异。阴性样本的数量明显大于阳性样本的数量,阳性样本之间必然存在大量的阴性样本。我们的假设是,在数据集中存在大量的样本重叠区域,推断样本重叠的影响可以提高原始数据集的质量,因此对蛋白质相互作用位点的预测有重要意义。本文提出了两种有效处理不同种类蛋白质重叠问题的抽样方法。

1、 Instance Hardness Threshold(实例硬度阈值)
可以有效地处理数据内部的类重叠问题,该方法采用IH财产的概念来表示数据点的概率是在训练集分类错误的。两个或多个类之间的优势或数据样本和噪声特性IH价值更高,因为学习算法迫使他们over-fit。IH是由贝叶斯定理导出的,公式如下:
2、重复编辑最近邻
重复编辑最近邻居(RENN)算法是另一种下采样方法,它可以通过去除噪声点来重新平衡原始数据集,算法如下:

六、 XGBoost算法
XGBoost是陈天奇等人开发的一个开源机器学习项目,XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所以叫X (Extreme) GBoosted。GBDT(Gradient Boosting Decision Tree)和XGBoost都是基于Boosting思想的方法(采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果)XGBoost的核心算法思想不难,基本就是:
- 不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差。
- .当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数
- 最后只需要将每棵树对应的分数加起来就是该样本的预测值。
XGBoost也是需要将多棵树的得分累加得到最终的预测得分(每一次迭代,都在现有树的基础上,增加一棵树去拟合前面树的预测结果与真实值之间的残差,具体的模型如下:

- k:表示第几个分类器
- f:表示树
- X i X_i Xi:训练集
- F:所有分类树和回归树的空间
- yˆi:表示训练集
x
i
x_i
xi预测的结果
详细过程如下:

下XGBoost的目标函数(损失函数揭示训练误差 + 正则化定义复杂度):

对于上式而言,y′i是整个累加模型的输出,正则化项∑kΩ(ft)是则表示树的复杂度的函数,值越小复杂度越低,泛化能力越强。
XGBoost算法例子:

七、算法的步骤
每个表面残差用特征编码方案表示为一个264维向量,原始数据集通过两种下采样算法进行处理,即RENN和IHT重新平衡正负数。在重新平衡数据集的基础上,采用XGBoost进行蛋白质相互作用位点预测。为保证预测结果的可靠性和稳定性,本文采用10倍交叉验证策略构建预测模型。流程图如下:
八、总结
- 2种特征提取的方法可以应用
- 5种特征提取方法
- 可视化工具pymol
- XGBoost进行训练分类
论文提出了一种利用XGBoost算法处理不平衡数据的策略,针对蛋白质相互作用位点预测。通过两种下采样方法(RENN和IHT)改善数据集平衡,提高了预测性能,达到80.7%的准确率和81.2%的召回率。与其他方法比较,该策略在识别蛋白质相互作用位点方面表现优越,并通过独立数据集验证了其预测效果。

被折叠的 条评论
为什么被折叠?



