生物信息学中的字符串挖掘
1. 引言
序列分析是生物信息学的一个主要领域,主要研究生物序列(如 DNA、RNA 和蛋白质)的线性结构。该领域的重点在于识别分子内和分子间的相似性。分子内相似性的识别主要是检测给定序列中的重复片段,而分子间相似性的识别则是找出两个或多个序列中的共同片段。
从数据挖掘的角度来看,序列分析本质上就是针对生物字符串的字符串或模式挖掘。然而,长期以来,数据挖掘和序列分析的教科书都未明确提及这一观点,这可能是因为这两个看似独立的领域共同发展所致。实际上,尽管序列分析文献中几乎未出现“数据挖掘”一词,但其基本概念已被隐含应用。有趣的是,生物序列分析的最新研究为数据挖掘中的许多问题提供了高效解决方案,如时间序列查询与分析、网页信息提取、垃圾邮件过滤、抄袭检测以及软件系统中的重复检测等。
下面我们将回顾生物序列分析领域的基本问题,对主要问题进行分类,并介绍基本解决方案。同时,还会展示字符串数据结构在一些传统数据挖掘问题中的有趣应用,如频繁项集挖掘、字符串核计算以及半结构化和非结构化文本文档的挖掘。
2. 背景
生物信息学中关注的三种关键生物序列类型为 DNA 序列、蛋白质序列和 RNA 序列。
- DNA 序列 :例如 GTAAACTGGTAC…,是由四个字母(A、C、G 和 T)组成的字符串,每个字母代表一种不同的核苷酸。通过遗传密码,DNA 序列可翻译成相应的蛋白质序列,每三个核苷酸(字母)编码一个氨基酸。例如,三联体 GTA 翻译成由 V 表示的缬氨酸,三联体 AAC 翻译成由 N 表示的天冬酰胺等。
- 蛋白质序列 :例
超级会员免费看
订阅专栏 解锁全文
1126

被折叠的 条评论
为什么被折叠?



