论文解读:DELPHI:用于蛋白质相互作用位点预测的精确深度集成模型

文章介绍了一种新的计算模型PlDBPred,专门用于预测植物中的DNA结合蛋白。该模型基于支持向量机,利用PSSM衍生的进化特征,优于深度学习算法。通过5倍交叉验证和独立数据集测试,PlDBPred展现了高精度和可靠性,尤其与现有植物DBP预测工具相比。此外,还开发了一个在线预测服务器供研究人员使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

期刊:  Briefings in Bioinformatics

出版日期 2022-11-22

websever:https://iasri-sg.icar.gov.in/pldbpred/

网址: PlDBPred: a novel computational model for discovery of DNA binding proteins in plants | Briefings in Bioinformatics | Oxford Academic

摘要

DNA结合蛋白(DBPs)在许多细胞过程中发挥着至关重要的作用,包括核苷酸识别、转录控制和基因表达调控。大多数现有的用于识别DBP的计算技术主要适用于人类和小鼠数据集。尽管一些模型已经在拟南芥上进行了测试,但当应用于其他植物物种时,它们的准确性很差。因此,开发一种有效的计算模型来预测植物DBP是当务之急。在这项研究中,我们开发了一个用于植物特定DBP识别的综合计算模型。五个浅层学习和六个深度学习模型最初用于预测,其中浅层学习方法优于深度学习算法。特别是,支持向量机实现了最高的重复5倍交叉验证准确率,受试者工作特征曲线下面积(AUC-ROC)为94.0%,精密度-召回曲线下面积为93.5%。在独立数据集的情况下,所开发的方法获得了93.8%的AUC-ROC和94.6%的AUC-PR。与现有技术中使用独立数据集的工具相比,所提出的模型实现了更高的精度。总体结果表明,与现有的植物DBP预测模型相比,所开发的计算模型更有效、更可靠。为了方便大多数实验科学家,开发的预测服务器PlDBPred可在https://iasri-sg.icar.gov.in/pldbpred/.The还提供了源代码https://iasri-sg.icar.gov.in/pldbpred/source_code.php用于使用大型数据集进行预测

数据集

       UniProt数据库[29](于21年6月14日访问)用于编译当前研究的植物DBP(阳性数据集)和非DBP(阴性数据集)序列。用GO术语“DNA结合”(GO:00033677)注释的蛋白质序列被视为DBP序列,而没有注释的蛋白质被视为非DBP序列。对于35种不同的植物,共收集了1812个DBP和2284个非DBP序列。去除了具有非标准氨基酸(B、J、O、U、X和Z)和少于50个氨基酸的蛋白质序列。DBP和非DBP数据集都进行了同源性降低,以消除预测准确性上的同源性偏差。使用CD-HIT方法[30]去除每个数据集中与任何其他序列具有>40%序列同一性的序列。849个DBP和1848个非DBP序列在处理后被保留。为了避免对具有更多观测值的非DBP类的预测偏差,考虑了具有相等数量的DBP和非DBP序列的平衡数据集。换句话说,从1848个非DBP序列中随机选择了849个非DBP-序列。

方法

PSSM衍生进化特征的生成

尽管基于序列的特征已被证明在许多预测任务中是有效的,但许多研究表明,从PSSM[31]剖面中获得的进化特征比基于序列的特性[13,24]提供的信息要多得多。基于PSSM的特征描述符已被用于几种生物信息学应用[32-33]。通过在NCBI非冗余(NR)数据库上运行PSI-BLAST[31](ftp://ftp.ncbi.nih.gov/blast/db/nr),在本研究中获得了每个蛋白质序列的PSSM图谱。PSSM轮廓是一个L×20维矩阵,可以写成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值