Bloom Filter在生物信息学中的应用与挑战
1. 生物信息学中的Bloom Filter技术
Bloom Filter是一种简单的数据结构,因其低时间和空间复杂度,在处理包含大量重复数据的基因组数据时表现出色。它并非独立技术,但与其他技术结合使用时,能成为适应性很强的数据结构。目前,Bloom Filter在生物信息学的多个领域得到了广泛探索。
2. 特定的生物信息学工具
- Kollector :这是一种无比对的靶向组装管道,使用渐进式布隆过滤器(Progressive Bloom Filter,PBF)。它有两个阶段,第一阶段是标记,扫描一组基因组读数以选择具有特定长度k - mer重叠的读数对,重叠长度由用户定义;第二阶段是管道,PBF根据固定的读数长度帮助选择具有k - mer重叠的读数。不过,PBF存在偏差,对输入文件中的读数排列敏感。Kollector还实现了ABySS和GMAP进行支架构建,并维护多个参数来控制错误读数的数量。但它偏向于短k - mer,无法重建长读数,例如约20 kbp的读数,原因是它无法识别外显子被长内含子分隔的读数。此外,作为贪心算法,它会选择脱靶区域的读数,并且由于PBF,会选择相对不同的序列。
- ABySS 2.0 :是ABySS 1.0的新版本,为多阶段从头测序管道。与ABySS 1.0相比,它实现了级联布隆过滤器(cascading Bloom Filter)来减少内存需求并去除错误的k - mer。该过滤器用于表示德布鲁因图(de Bruijn graph),有三个阶段:单元化(uniting)、重叠群(contig
超级会员免费看
订阅专栏 解锁全文
27

被折叠的 条评论
为什么被折叠?



