蛋白质跨膜结构域预测与序列分类方法研究
在生物信息学领域,蛋白质跨膜结构域的预测以及序列分类是重要的研究方向。本文将介绍两种相关的研究方法,一是关于跨膜结构域预测的igS方法,二是基于最小一般泛化的序列分类方法。
跨膜结构域预测:igS方法
评估指标
在跨膜结构域预测中,使用了多种评估指标:
- 覆盖率(Coverage) :某些实验中,覆盖率达到了100%,这可能解释了AC(Accuracy)和CC(Correlation Coefficient)值之间存在的显著差异。
- 片段重叠度(Segment overlap,Sovδobs) :计算公式为 (Sovδ_{obs} = \frac{1}{N} \sum_{s} \frac{min(E) - max(B) + 1 + δ}{max(E) - min(B) + 1} len(s1)) ,其中 (N) 是蛋白质所有结构域中观察到的氨基酸总数,(s1) 和 (s2) 是两个重叠的片段,(E = {end(s1); end(s2)}) ,(B = {beg(s1); beg(s2)}) ,(δ) 是允许的最大偏差,这里取值为3。
- 不同准确率阈值下正确预测的跨膜片段数量 :计算了在100%、90%和75%三个准确率阈值下正确预测的跨膜片段数量,即氨基酸正确预测比例分别达到100%、90%及以上、75%及以上的片段数量。该指标类似于敏感性(Sensibility),但基于片段,能对包含假阴性(不仅在片段末端)的片段进行可靠评估。不过,这些指标对过预测较为敏感,因此需要结合特异性(Sp)
超级会员免费看
订阅专栏 解锁全文
158

被折叠的 条评论
为什么被折叠?



