神经网络树在DNA序列识别中的应用
1. 引言
在生物信息学领域,准确识别DNA序列中的剪接位点和蛋白质编码区域是一项重要任务。传统的分类算法在处理这类复杂的生物数据时存在一定的局限性,而神经网络树(NNTree)作为一种混合学习算法,为解决这些问题提供了新的思路。
2. 剪接位点识别
2.1 数据集描述
用于剪接位点识别的数据集是Irvine Primate剪接位点数据库的处理版本。该数据库包含3186个示例,每个示例由60个核苷酸组成的窗口表示,核苷酸用{A, C, G, T}四个符号值表示,窗口中点被分类为内含子 - 外显子边界或其他情况。处理过程包括去除四个示例,将原始的60个符号属性转换为180个二进制属性,并将符号类标签转换为数字标签。随机选择2000个示例作为训练集,其余1186个示例作为测试集。
2.2 实验结果
实验结果通过多个表格和图表展示,以下是部分关键表格:
| 算法/方法 | 分类准确率(%) | 总节点数 | 树的高度 | 分类时间(ms) |
| — | — | — | — | — |
| NNTree | 94.2 | 5 | 3 | 517 |
| C4.5 | 93.3 | 127 | 12 | 655 |
从表格中可以看出,NNTree在剪接位点数据库上的分类准确率高于C4.5,且节点数、树的高度和分类时间都显著小于C4.5。此外,通过不同参数(η, α, Hn)下的实验结果,发现NNTree能够很好地泛化剪接位点数据库,并且随着L的增加,训练和测试准确率的标准差会减小。
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



