蛋白质二级结构预测与结合补丁形状匹配研究
蛋白质二级结构预测实验
在蛋白质二级结构预测中,为评估不同的结构到结构分类器,使用了CB513数据集,该数据集包含513个序列,由84119个残基组成。残基描述 $x_i$ 的推导已详细说明,其标签 $y_i$ 最初由DSSP程序进行二级结构分配,并按照CASP方法从8种构象状态简化为3种,即 $H + G → H$(α - 螺旋),$E + B → E$(β - 链),其他状态归为 $C$(无规卷曲)。
使用两个滑动窗口,分别以目标残基为中心,大小分别为13(序列到结构)和15(结构到结构,$T_l = T_r = 7$)。参考性能由包含两个多层感知器(MLP)的级联架构提供,其隐藏层大小分别为16(序列到结构)和6(结构到结构)。
为评估预测准确性,计算了三个最常用的标准指标:识别率 $Q_3$、Pearson - Matthews相关系数 $C_{α/β/coil}$ 和最新版本的片段重叠度量($Sov‘99$),概率估计质量通过(平均)交叉熵($CE$)衡量。采用七折交叉验证程序训练级联的两个层次并评估性能,每次使用三分之二的训练集训练序列到结构分类器,三分之一训练结构到结构分类器。实验结果如下表所示:
| 级联架构 | $Q_3$ (%) | $C_α$ | $C_β$ | $C_{coil}$ | $Sov‘99$ (%) | $CE$ |
| — | — | — | — | — | — | — |
| MLP + MLP | 74.6 | 0.69 | 0.59 | 0.54 | 71.1 | 0.615 |
| M - SVMs + 逻辑回归 | 76.5 | 0.71 | 0.62
超级会员免费看
订阅专栏 解锁全文
1351

被折叠的 条评论
为什么被折叠?



