CRiSPy - 加速微生物群落分析的利器
在微生物群落研究领域,随着焦磷酸测序技术的不断进步,输入的读取数据集规模迅速增长。计算成对遗传距离矩阵这一关键任务变得极为耗时,传统方法在处理大规模数据集时面临着巨大挑战。本文将介绍一种名为 CRiSPy 的并行化工具,它基于流行的 ESPRIT 软件包,利用 CUDA 编程实现了高效的成对 k - 元距离和遗传距离计算,为微生物群落分析带来了显著的加速效果。
1. 微生物群落分析方法概述
微生物群落研究中,对 16S rRNA 标记基因进行测序的焦磷酸测序技术应用广泛。计算分析这些数据集主要有两种方法:
- 分类学依赖方法 :将输入数据与参考数据库进行比对,根据匹配结果为每个读取分配一个生物体。但现有数据库不完整,大量微生物未知,该方法存在局限性。
- 分类学独立方法 :进行层次聚类,根据距离阈值将读取分入操作分类单元(OTU)。此方法能表征新微生物,但全比对计算密集,传统方法计算复杂度高,应用受限。
现有分类学独立方法可分为四类:
|方法类型|示例|
| ---- | ---- |
|多序列比对(MSA)|如 MUSCLE|
|基于轮廓的多序列比对(PMSA)|如 RDP - aligner|
|成对全局比对(PGA)|如 ESPRIT|
|贪婪层次聚类(GHC)|如 UCLUST|
多项性能评估表明,MSA 和 PMSA 方法的遗传距离矩阵值准确性不如 PGA 方法,GHC 方法虽快但聚类质量一般。PGA 方法的主要缺点是计算复杂度高,对于包含 n 个平均长