利用Kendall - τ元装袋法改进蛋白质 - 蛋白质对接预测
1 引言
许多生物过程和结构依赖于蛋白质及其与其他蛋白质或大分子(如DNA和RNA)形成复合物的能力。解决这些大分子组件的三维(3D)结构是理解生物机制以及这些机制故障如何导致疾病的关键步骤。
尽管一些结构基因组学项目在解决蛋白质 - 蛋白质复合物结构方面取得了进展,但仍无法实现高通量。由于大多数蛋白质通常有多个相互作用伙伴,计算机模拟技术在研究分子机制中起着至关重要的作用。本文聚焦于蛋白质对接问题,即通过计算预测两个蛋白质如何结合形成二元蛋白质复合物。
目前已有多种对接算法,它们使用不同技术生成和评分候选构象。自2001年以来,CAPRI实验为评估不同对接算法提供了重要平台。然而,当前的评分函数仍不够灵敏,难以从大量错误构象中提取出真正的阳性结果。
本文引入了一种基于Voronoi指纹表示的装袋法对蛋白质 - 蛋白质候选构象进行评分的新方法,还引入了基于Kendall - τ距离的“元装袋”评分函数,以最小化多个机器学习装袋方法排名的解决方案之间的差异。该方法在包含51个目标蛋白质复合物的蛋白质对接基准集上进行了测试。
2 方法和数据
2.1 训练数据集
蛋白质数据库(PDB)目前包含约65,000个3D蛋白质结构,但只有一小部分代表不同的结构折叠家族。从3D - Complex数据库中提取了约1,400个二元异源复合物用于训练。
应用了以下附加约束来测试蛋白质对接方法:
- 单个伙伴的3D结构必须在没有其他伙伴的情况下已知。
- 在PDB中可用的异二聚体结构中,仅保留链长大于30个氨基
超级会员免费看
订阅专栏 解锁全文
483

被折叠的 条评论
为什么被折叠?



