利用新颖方法预测蛋白质同源寡聚体类型
1. 特征集准确性差异及原因
在蛋白质同源寡聚体类型预测研究中,发现特征集 CS、CD 和 CSD 的准确性低于特征集 C。造成这种情况的原因主要有两个方面:
- 特征集之间可能存在一些冗余和冲突信息。不同特征集所包含的信息可能有重叠部分,这会影响预测的准确性。
- 四类样本数量的不平衡。不同类型的蛋白质同源寡聚体样本数量不一致,可能导致模型在训练和预测时出现偏差。
2. 样本数量不平衡的影响及解决方法
2.1 加权因子方法
为了研究四类样本数量不平衡的影响,采用了加权因子方法。根据四种类型的蛋白质同源寡聚体的数量,计算出 2EM、3EM、4EM 和 6EM 的加权因子值分别为:759/759、759/105、759/327、759/92。
2.2 加权因子方法下特征集的结果
使用加权因子方法对 8 个特征集进行测试,结果如下表所示:
| Feature sets | Q(2)% | MCC(2) | Q(3) % | MCC(3) | Q(4) % | MCC(4) | Q(6) % | MCC(6) | Q% |
| — | — | — | — | — | — | — | — | — | — |
| C | 70.36 | 0.3577 | 49.52 | 0.4772 | 63.91 | 0.3859 | 46.74 | 0.3752 | 65.32 |
| CM | 78.00 | 0.4647 | 59.05 | 0.5532 | 67.58 | 0.5035 | 53.26 | 0.5188 | 72
超级会员免费看
订阅专栏 解锁全文
901

被折叠的 条评论
为什么被折叠?



