FASTA36:序列比对与分析的开源工具
1. 项目基础介绍与编程语言
FASTA36 是一个开源的序列比对和分析软件包,由 W. R. Pearson 和 D. J. Lipman 开发。该软件包提供了与 BLAST 相似的功能,但在统计估计上采用了不同的方法,并且提供了额外的最优程序用于本地(ssearch36)和全局(ggsearch36、glsearch36)序列对齐,以及用于非重叠内部本地对齐的 lalign36。主要使用的编程语言为 C 和 Python。
2. 项目核心功能
- 序列比对:提供多种比对程序,包括 fasta36、ssearch36、ggsearch36 和 glsearch36,用于蛋白质和 DNA 序列的本地和全局比对。
- 数据库搜索:支持 DNA 查询对蛋白质序列数据库的搜索(fastx36/fasty36)和蛋白质查询对 DNA 数据库的搜索(tfastx36/tfasty36)。
- 序列对比:允许将有序和无序的肽段或寡核苷酸与蛋白质或 DNA 数据库进行比对。
- 内部对齐:lalign36 用于查找非重叠的内部对齐,类似于点阵图,但具有统计学意义。
3. 项目最近更新的功能
- 优化和兼容性:引入了 SIMDe 宏定义,使得 Smith-Waterman、global 和 glocal 对齐代码能够在非英特尔架构(如 ARM/NEON)上编译。
- 错误修复和改进:修复了在处理大型数据库时出现的内存泄漏问题,改进了错误和警告信息的格式,以及修正了与编译器相关的警告。
- 新功能添加:增加了
-Xg选项,以保留输出中的 gi|12345 字符串;增加了自定义标识符的--id选项;支持了新的翻译表-t 9用于棘皮动物。 - 脚本更新:更新了多个脚本,包括序列提取、注释和数据库构建等,以提供更丰富的功能和更好的用户体验。
通过这些更新,FASTA36 继续为生物信息学研究提供了一个强大的开源工具,使得序列分析和比对变得更加高效和准确。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



