从HP晶格模型到真实蛋白质及组蛋白修饰预测研究
蛋白质相关研究
在蛋白质研究中,我们可以从公开链接 http://www.asap.cs.nott.ac.uk/~jqb/EvoBIO_dataset.tar.gz(约85MB)获取相关数据集。依据Broome和Hecht的方法,此数据集可用于生成真实蛋白质HP序列数据集(Real - HP),即按照如下规则为每个残基赋予疏水或极性值:
| 残基(单字母代码) | 分配类型 |
| ---- | ---- |
| ACFGILMPSTVWY | 疏水 |
| DEHKRQN | 极性 |
属性分布
对于Lattice - HP数据集,不同状态(二态、三态和五态)下疏水/极性残基分布有所不同。高CN类中疏水残基比例较高,对应埋藏的疏水残基核心;低CN(暴露)类中极性残基比例较高,这是因为模型蛋白质结构基于疏水性优化,使疏水残基聚集在一起。
对于Real - HP数据集,在不同状态分类下,高CN类中疏水残基显著更普遍,低CN类中疏水和极性残基分布大致相等,可能源于上述约2:1的疏水与极性分配比例。这些分布为评估预测算法性能提供了基准。
预测结果
研究比较了GAssist与另外两种机器学习系统(C4.5规则归纳系统和Naive Bayes贝叶斯学习算法)在不同数据集上的性能。
- Lattice - HP数据集 :
- 随着状态数增加,所有算法的准确率从约80%降至约51%。
- 除C4.5算法在二态和三态预测中随窗口大小增加准确率下降外,其他算法在各状态下窗口大小增加时准确