蛋白质DNA结合倾向预测与功能预测方法研究
1. 基于球直方图的蛋白质DNA结合倾向预测
在之前的研究中,我们了解了如何构建球直方图,但尚未探讨如何将其用于预测分类。最初,我们考虑在归一化直方图空间中定义度量,然后使用最近邻分类器或最近质心分类器。然而,初步实验显示这些分类器的预测准确率并不理想。因此,我们采用了一种受关系学习中的命题化方法启发的不同策略。
具体的转换方法如下:
- 查看训练集中所有蛋白质生成的直方图。
- 为每个至少在一个直方图中非零的属性出现向量创建一个数值属性。
- 利用收集到的属性为每个训练示例创建一个属性向量,属性向量的条目值对应于相应直方图中箱的高度。
- 在属性值表示上学习随机森林分类器,并用于预测分类。
在实际应用中,需要选择最佳的采样球半径。可以通过创建对应不同半径的多组直方图及其属性值表示,然后使用内部交叉验证程序选择最佳参数。
我们进行了两类实验:
- 第一类实验 :研究带电氨基酸(用球直方图表示)的分布。我们构建了模板为(Arg, Lys, Glu, Asp)且采样球半径分别为6、8和10˚A的直方图。通过内部交叉验证为每个折叠选择最佳采样球半径和最佳树数量来训练随机森林分类器。结果显示,我们的方法准确率与文献[7]的方法相当,但我们仅使用了带电氨基酸的分布,而文献[7]使用了Arg、Lys、Gly、Asp、Asn、Ser和Ala等氨基酸的属性。
- 第二类实验 :考虑了文献[7]中使用的那组氨基酸,结果我们的方法准确率超过了文献[7]的方法。
以下是10折交叉验证在
超级会员免费看
订阅专栏 解锁全文
1019

被折叠的 条评论
为什么被折叠?



