蛋白质接触图预测与基因树校正算法研究
蛋白质接触图预测方法 LRcon
在蛋白质结构研究中,预测蛋白质接触图对于理解蛋白质的三维结构至关重要。然而,当前计算方法的准确性较低。为了提高蛋白质接触图预测的准确性,研究者开发了一种基于逻辑回归的改进序列蛋白质接触图预测方法 LRcon。
LRcon 架构与残基对选择
LRcon 的整体架构在训练过程中,基于多个个体预测器构建共识预测器。对于长度为 L 的蛋白质,若使用所有满足序列分离条件的残基对进行训练,会面临两个问题:一是大量训练样本会导致计算时间过长,无法合理估计回归系数;二是大部分残基对属于负类,少量正样本会使预测严重偏向负类,降低 LRcon 的性能。
因此,研究者提出使用每个组件预测器的前 λL 预测对应的残基对的并集。对于第 k 个预测器返回的前 λL 残基对集合记为 Rk,选择用于训练和测试 LR - Predictor 的残基对取自集合 RLR = ⋃(k = 1 到 p) Rk。
实验结果
在 CASP9 数据集 D80 上,采用 10 折交叉验证来估计 LR 的回归系数并评估 LRcon 的性能。对于前 0.1L 预测,平均准确率、覆盖率和 F - 度量的结果显示,LRcon 优于所有组件预测器以及简单的平均和投票方案。在长程接触预测方面,难度明显高于短程和中程接触预测。对于前 0.2L 预测,LRcon 同样表现出色。
通过统计显著性检验发现:平均方案表现优于投票方案;平均和投票方案都无法在所有情况下优于所有组件预测器;而 LRcon 始终优于其他所有预测器。
在 D856 数据集上,将 856 条蛋白质链随
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



