生物序列与运动数据检索技术:PFMFind与运动捕获数据检索系统
在生物学和计算机科学的交叉领域,有两项重要的技术值得关注,分别是用于发现肽同源性和功能的PFMFind系统,以及用于运动捕获数据中检索相似运动的系统。这两项技术在各自的领域都有着重要的应用价值。
PFMFind系统:探索肽序列关系的利器
蛋白质的生物功能既取决于其整体结构,也与特定的肽序列基序密切相关。寻找短肽片段(3 - 18个氨基酸)之间的关系,对于理解蛋白质结构和功能的新方面具有重要意义。然而,寻找短基序面临着诸多挑战,因为许多短片段之间的明显关系可能是偶然产生的,而且现有的大多数序列数据库搜索和基序查找工具主要是为长基序设计的。
PFMFind系统应运而生,它是一个用于高效发现蛋白质序列短片段之间关系的系统。该系统主要由以下几个部分组成:
1. FSIndex搜索引擎 :它是PFMFind的核心,是一种用于对非常大的固定长度短蛋白质片段数据集进行相似性搜索的高效索引方案。FSIndex基于两个原则:将氨基酸字母表缩减为基于其生化特性的簇,以及组合生成邻居。其设计使得典型搜索只需扫描不到1%的片段数据集,同时确保不会错过满足搜索标准的邻居。FSIndex用C语言实现并嵌入到Python中,整个数据结构和索引序列存储在主内存中。为了提高效率,搜索计算可以使用主/从模型在多台机器之间分布。
2. 关系型数据库 :使用PostgreSQL作为数据库管理系统,用于存储搜索结果和序列注释。每个用户都有自己的模式来存储搜索结果,数据库还存储所有搜索参数,方便回退到之前的迭代而无需重复整个过程。序列注释存储在标准的BioSQL模
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



