布隆过滤器在生物信息学中的应用
1. 预处理过滤
在构建广义德布鲁因图(gdBG)时,需要先确定起始位置。从起始位置开始,沿着路径构建 gdBG。布隆过滤器有助于在选择起始位置之前比较各个起始位置节点。选择起始位置后,将其插入布隆过滤器。
1.1 错误校正
在基因组数据收集或生成过程中,会引入许多错误,原因包括插入新的 DNA 片段或遗漏某些 DNA 片段等。错误的存在会降低数据质量,因此错误校正是所有预处理过程中最重要的步骤。该阶段会去除错误,以便在正确的读取上进行 DNA 组装。不过,错误校正的处理时间较长。由于错误相互独立,错误校正方法会并行执行以加快处理速度。但单一的错误校正方法无法去除所有错误,因为错误的性质多种多样。
以下是基于布隆过滤器的错误校正技术的特点和局限性:
| 技术 | 特点 | 局限性 |
| — | — | — |
| BLESS | - 布隆过滤器存储所有固体 k - 元组,以便更快地进行成员检查
- 扩展读取以找到覆盖读取末尾错误碱基的多个 k - 元组,提高读取末尾的错误校正效果
- 将弱 k - 元组转换为固体 k - 元组
- 通过与哈希表检查来识别假阳性响应 | - 测序深度的增加会增加磁盘空间占用
- 布隆过滤器的假阳性响应可能导致将错误碱基更改为错误的碱基
- 识别假阳性响应会增加时间复杂度
- 如果 k - 元组频率阈值较高,则正确的 k - 元组会被确定为弱 k - 元组
- 非常小的 k 会在错误校正过程中导致许多不必要的路径
- 大的 k 会降低固体 k - 元组的频率
- 在计数步骤中
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



