论文解读-HybridRNAbind:预测结构注释和无序注释蛋白质的RNA相互作用残基

文章分析了基于序列的RNA结合残基预测器的性能,指出结构训练的预测器对结构注释蛋白质表现好,而无序训练的预测器对无序注释蛋白质预测准确。为解决此问题,提出了HybridRNAbind元模型,它结合了最佳结构和无序训练预测器的结果,降低了交叉预测并提高了整体预测准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

期刊:Nucleic Acids Research

中科院分区:1区

影响因子:19.16

DOI

WebSever

Github:无

出版日期:2023-01-11

作者:张富浩; 李敏; 张剑; Lukasz Kurgan

  1. 摘要

基于序列的RNA结合残基预测器(RBRs)在结构注释或无序注释的结合区域上进行训练。最近一项关于蛋白质结合残基预测因子的研究表明,它们受到高水平交叉预测的困扰(蛋白质结合残基被预测为核酸结合),结构训练的预测因子对无序注释区域表现不佳,反之亦然。因此,我们分析了RBRs的结构和无序训练预测因子的代表集,以全面评估其预测的质量。我们依赖于一个新的低相似基准数据集的实证分析表明,结构训练的RBRs预测器对结构注释的蛋白质表现良好,而无序训练的预测器对无序注释的蛋白质提供准确的结果。然而,这些方法在相反类型的注释上效果一般,因此需要新的解决方案。使用经验方法,我们设计了HybridRNAbind元模型,在结合结构和无序注释RBRs的数据上测试时,生成准确的预测和低数量的交叉预测。

  1. 背景

蛋白质- RNA相互作用是许多细胞过程的工具,包括基因表达、RNA剪接和调控、蛋白质合成和转录后调控。这些蛋白质的调控不当会导致许多疾病,包括癌症、糖尿病、心血管和神经退行性疾病。蛋白质- RNA相互作用的分子水平细节可以从多种资源的数据中进行研究,例如涵盖原子水平细节的蛋白质数据库(PDB),以及提供残差水平注释的BioLiP和DisProt。然而,这些细节只适用于RNAbinding蛋白质的一小部分,这激发了开发精确计算工具的需求。

已经开发了许多方法来预测RNA在蛋白质中的结合。根据输入的不同,它们可以分为两类:基于结构的和基于序列的。基于结构的预测因子仅限于具有结构或结构可以准确预测的蛋白质。原则上,基于序列的预测器可用于描述任何蛋白质序列中的RNAbinding。基于序列的方法可以进一步细分为在蛋白质水平(即预测给定蛋白质序列是否结合RNA)和残基水平(即预测序列中RNA结合氨基酸)进行预测的方法。我们专注于基于剩余水平序列的预测器,因为与蛋白质水平方法相比,它们提供了更多的细节。

绝大多数基于序列的RNA结合残基预测器(RBRs)利用机器学习模型。这些模型是在训练数据集上计算/参数化的,以最小化预测与实际数据之间的差异。然后,训练过的模型可以用于预测训练数据集之外序列的RNA结合残基。其中一些预测因子还利用基于模板的建模,其中预测是从与RNA复杂的相似蛋白质转移而来的。基于训练数据集,基于序列的RBRs预测器可以分为两类:结构训练预测器和无序训练预测器。

前者使用训练数据集,其中RBRs的注释从蛋白质- RNA复合物的结构中提取,通常使用PDB和BioLiP数据库。后者应用训练数据集,其中RBRs定位在内在无序区域(IDRs),可以从DisProt和MobiDB数据库中提取。idr是蛋白质序列中在生理条件下缺乏稳定三维结构的片段。它们广泛存在于所有生物体中,尤其是真核生物中。大量研究记录了蛋白质- RNA相互作用的内在紊乱的普遍性和重要性。具有idr的蛋白质对基于结构的预测因子也具有挑战性,这进一步证明了我们对基于序列的预测因子的关注。

通过手工文献检索和过去的调查,我们确定了31个综合的基于序列的RBRs预测因子。我们发现了2个经过无序训练的预测因子和29个经过结构训练的预测因子,其中9个预测了RNA结合残基和dna结合残基。29个结构训练的预测因子包括(按时间顺序)郑等人的方法, BindN,郑和Miyano方法,RNABindR , PRINTR , RISP , Pprint , RNAProB , BindN+ , NAPS , PiRaNhA, ProteRNA, RBRspred , PRNA , PRBRs , Choi和Han方法,RNABindRPlus , aaRNA , SNBRFinder , Ren和Shen方法,PRIdictor , RNAProSite, DRNApred , PredRBRs , NucBind , ProNA2020 , NCBRPred和MTDsite。障碍训练的预测因子是DisoRDPbind和DeepDISObind。它们同时预测RNA、DNA和蛋白质结合残基。与结构训练方法相比,它们的数量相对较低,这可以解释为RBRs注释在idr中的稀缺性。DisProt是这些注释的唯一来源,只是在最近几年才收录它们。有趣的是,最近的一项研究表明,结构训练的蛋白质结合残基预测因子对于带有无序注释的蛋白质表现不佳,而无序训练的蛋白质结合残基预测因子对于带有结构注释的蛋白质提供不准确的预测。据我们所知,目前还没有针对RBRs的基于序列的预测因子分析这一问题的类似研究。

我们对31个结构和无序训练的预测因子的分析表明,它们中没有一个在训练过程中同时使用结构和无序注释的蛋白质。这表明,对于其他类型的注释,当前的预测器可能提供较差的结果。此外,这些预测因子总是根据它们自己的注释类型进行评估,即结构训练的预测因子不会在无序注释的蛋白质上进行评估,反之亦然。此外,最近的研究确定并讨论了一个交叉预测问题,其中与给定伙伴类型相互作用的残差被交叉预测为与不同伙伴类型相互作用,基本上导致了伙伴不可知论预测。在我们的场景中,交叉预测意味着与非RNA伙伴(例如蛋白质和/或DNA)相互作用的残基被预测为RBRs。交叉预测可以归因于这样一个事实,即预测因子通常是用仅由RNA结合蛋白组成的训练数据集开发的,很少或没有与非RNA伙伴相互作用的蛋白质表示。虽然最近的一些预测因子,如NCBRPred、DRNApred和DisoRDPbind,旨在减少交叉预测的数量,但最近的文献表明,这对目前的RBRs预测因子来说是一个重大挑战。

为了解决这些尚未解决的问题,我们在一个新的低相似度基准数据集上,对具有代表性的无序和结构训练预测因子集合进行了经验评估,该数据集涵盖了与RNA和非RNA伙伴相互作用的结构和无序注释蛋白。我们测量和比较了整个测试数据集上的预测性能,包括交叉预测,并分别对结构注释和无序注释的蛋白质进行了测量。此外,受这一实证评估结果的启发,我们设计、比较评估并发布了一个新的HybridRNAbind元预测器,它结合了由最佳无序和结构训练的预测器产生的结果,对所有蛋白质产生准确的预测。

  1. 数据集

3.1预测因子的选择

我们考虑一组全面的无

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值