Structator的实现与改进
1. 引言
在生物信息学领域,非编码RNA(ncRNA)的重要性日益增加。ncRNA在基因调控、转录后修饰等多种生物学过程中扮演着关键角色。为了更好地理解和研究这些分子,研究人员需要高效的工具来搜索和分析RNA序列及其二级结构。本文将重点介绍Structator——一种快速的基于索引的RNA序列-结构模式搜索工具,以及对其空间效率的改进。
2. Structator概述
Structator利用后缀数组(Suffix Array)作为核心数据结构,支持高效的单向和双向搜索。该工具的源代码遵循GNU通用公共许可证第3版,用户可以从官方网站下载使用。Structator的主要功能包括:
- 索引构建 :给定一个包含所有目标序列的FASTA文件,用户可以构建不同的索引文件,这些文件对于后续的搜索步骤是必需的。
- 模式搜索 :给定一个包含若干RNA序列-结构模式(RSSP)的文件,Structator可以在预计算的索引中查找相似的RNA序列。
每个RSSP由三行组成,提供描述、序列本身以及以点括号表示法表示的二级结构。例如:
>Example RNA sequence
AUAGCUGCUGCUGCA