基于神经网络树的DNA剪接位点和蛋白质编码区域识别
1. 生物数据与生物信息学
在当今网络互联的社会中,生物数据呈现出爆炸式增长。然而,这种数据的爆炸式增长却在获取知识方面形成了阻碍,因为对大量生物数据进行有意义的解读变得越来越困难。为了从这些数据中提取知识,来自不同领域的研究人员、从业者和企业家正努力开发复杂的技术来存储、分析和解读这些生物数据,从而催生了生物信息学这一新兴领域。
生物信息学与自动化高通量的模式识别和机器学习方法的发展并行兴起。高通量方法在生物和生化发现中产生了各种实验数据,如DNA序列、基因表达模式、化学结构等。生物信息学涵盖了从数据存储和检索到数据特征识别和展示的各个方面,例如在DNA序列中寻找基因、发现序列间的相似性、进行结构预测以及分析序列变异与临床数据的相关性。
生物信息学中有两个重要的问题,分别是剪接位点或剪接连接点的预测,以及DNA序列中蛋白质编码区域的识别。基因以特定的核苷酸或碱基序列形式存储信息,这些碱基序列编码了制造蛋白质的指令。基因中编码蛋白质的区域被称为外显子,外显子只占基因的一小部分。在原核基因中,信使核糖核酸(mRNA)只是DNA的转录副本;而在真核基因中,DNA的RNA副本包含非编码片段,即内含子,这些内含子必须被精确地剪接出来才能产生mRNA。因此,内含子是基因中不参与蛋白质合成的部分,外显子则是基因中的蛋白质编码区域。DNA被移除的点被称为剪接位点,剪接位点识别问题就是要确定DNA序列中指定位置属于以下三个类别中的哪一类:(1)外显子/内含子边界,称为供体;(2)内含子/外显子边界,称为受体;(3)都不属于。另一个重要问题是在匿名DNA序列中识别蛋白质编码区域,即外显子。识别编码区域和剪接位点对于理解基因的处理过程至关重要。 <
超级会员免费看
订阅专栏 解锁全文
1508

被折叠的 条评论
为什么被折叠?



