60、序列比对作为数据库技术挑战

序列比对作为数据库技术挑战

1 引言

序列比对对于分子生物学家来说是一项重要任务。同源性搜索本质上是将特定查询字符串与大型已知字符串集合进行匹配,数据库可能包含基于ACGT字母表的核苷酸字符串或基于20个字母表的氨基酸字符串。由于进化变化,需要处理不精确匹配,即对大型字符串集合进行近似字符串匹配。

传统上,序列数据库是纯文本格式,实际字符串内容与标识符和注释混合。搜索通常使用专门工具,如Blast和HMMER,若使用数据库管理系统(DBMS),也仅作为存储引擎。因此,数据库领域面临的挑战是展示DBMS的查询功能可简化搜索并使其更灵活。

单序列比对已得到充分研究,精确解由动态规划算法(Smith - Waterman)提供。为实现快速响应,基于q - gram索引的启发式对齐工具Blast应运而生。q - gram索引技术可轻松移植到关系数据库环境,过滤过程能用关系代数简洁表达,通过对查询表达式的微小更改即可研究过滤启发式的变化。

为展示DBMS方法的多功能性,下面将重点介绍多序列比对。多序列比对是将相关蛋白质字符串集合(家族)与数据库进行匹配,可通过隐马尔可夫模型(HMM)表示。匹配配置文件HMM与蛋白质字符串数据库通常使用类似维特比的动态规划原理,HMMER软件包是这些技术的开源实现,但在普通硬件上对中等大小数据库进行典型匹配操作需数分钟。

下面将描述一种基于q - gram索引的广义Blast启发式搜索方法,由于DBMS的灵活性,将这些思想应用于多序列比对十分直接。这样,数据库既能支持单字符串查询,也能支持家族查询。在Monet主内存DBMS上实现这些方法,可显著减少响应时间,同时保持令人满意的灵敏度。

2 预备知

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值