生物信息学中的蛋白质结构预测与相互作用提取技术
在生物信息学领域,蛋白质结构预测和蛋白质 - 蛋白质相互作用信息提取是两个重要的研究方向。前者有助于深入理解蛋白质的功能,而后者则能为揭示生物体内复杂的分子机制提供关键线索。本文将介绍两种相关的技术:聚类支持向量机(CSVMs)用于蛋白质结构预测,以及隐藏向量状态模型(HVS)用于从文献中提取蛋白质 - 蛋白质相互作用信息。
聚类支持向量机(CSVMs)在蛋白质结构预测中的应用
支持向量机(SVM)在处理大规模数据集时,由于训练时间复杂度高,效率较低。为解决这一问题,聚类支持向量机(CSVMs)应运而生。
蛋白质结构表示与评估标准
只有二级结构、扭转角和距离矩阵的组合信息才能精确表示蛋白质结构。为了严格评估算法的预测质量,为每个聚类设计了准确性标准。一个聚类的准确性标准是测试集中二级结构准确性大于 70%、dmRMSD 小于 1.5 Å 且 taRMSD 小于 30 度的序列片段的百分比,它反映了具有可接受结构预测准确性水平的序列片段的百分比。
实验结果与分析
通过实验,得到了不同聚类组的 SVM 平均准确率、预测率和召回率,如下表所示:
| 聚类组 | 平均准确率 | 平均预测率 | 平均召回率 |
| — | — | — | — |
| 差聚类组 | 75% | 74% | 77% |
| 平均聚类组 | 82% | 84% | 95% |
| 好聚类组 | 85% | 86% | 96% |
同时,比较了传统聚类算法和 CSVMs 模型的预测准确性:
| 聚类组 | 传统聚类算法
超级会员免费看
订阅专栏 解锁全文
1059

被折叠的 条评论
为什么被折叠?



