生物序列组装、比对与建模技术全解析
在生物信息学领域,序列组装、比对以及建模是至关重要的技术,它们对于理解生物过程、解析基因信息等方面具有不可替代的作用。下面将详细介绍这些技术的原理、方法以及应用。
1. 序列组装与比对技术
1.1 序列组装中的哈希表应用
在序列组装过程中,哈希表是一种极为重要的数据结构。它能够快速定位要访问的 l - 元组。这里采用了 djb2 函数(一种优秀的字符串哈希函数)。哈希表均匀分布在各个计算节点上。假设哈希表的大小为 n,可用的计算节点数量为 p(计算节点编号为 0, 1, 2, …, p - 1),那么每个节点上的部分哈希表大小为 $\lceil n/p \rceil$。对于从某个读取中生成的 l - 元组,以其字符串作为输入,通过哈希函数计算其哈希值 h,该 l - 元组将被分配到编号为 h % $\lceil n/p \rceil$ 的计算节点。同时,使用线性列表处理哈希冲突。哈希表还包含每个 l - 元组的多重性,它决定了该 l - 元组在组装结果中出现的次数。重复和非重复的 l - 元组将同时进行组装,当所有 l - 元组的多重性都降为 0 时,并行组装完成。
1.2 大规模成对序列比对
- 成对序列比对原理 :成对序列比对是将一个序列写在另一个序列上方的方案,其中一个位置上的残基被认为具有共同的进化起源。如果两个序列中出现相同的字母,则该位置在进化中得到了保留;如果字母不同,则假设它们源自一个祖先字母(可能是两者之一,也可能都不是)。同源序列可能长度不同,通常通过序列中的插入或删除来解释。在这种基于进化的简单方案中,比对可以定义两个序列之间的
生物序列组装与比对技术解析
超级会员免费看
订阅专栏 解锁全文
45

被折叠的 条评论
为什么被折叠?



