生物信息学工具性能与基因组重排模型研究
1. k - mer 计数工具性能评估
1.1 k - mer 处理流程
在处理 k - mer 时,会顺序存储那些无法插入的 k - mer。当临时文件中的所有 k - mer 都处理完毕后,会通过排序和压缩的方法对该区域内的 k - mer 进行计数。不过,仍有可能超出可用的 GPU 内存。在这种情况下,会将该区域内的所有 k - mer 复制回主内存,并存储在临时文件中,这与 CPU 的应急处理类似,但这种操作成本很高。在处理实际数据集时,几乎未观察到 GPU 错误处理情况,CPU 错误处理的执行次数也很少。
1.2 实验设置
为了测试相关工具的性能,使用了与他人相同的实例进行实验。对于每个数据集,分别对 k = 28、40、56 和 65 的所有 k - mer 进行计数,并将 Gerbil 的运行时间与 KMC2(版本 2.3.0)和 DSK(版本 2.0.7)进行比较。此外,还使用了合成测试集 GRCh38,该数据集由 Genome Reference Consortium Human Reference 38 创建,从中均匀采样了大小为 1000 的 k - mer,目的是测试更大 k 值下的性能。为了评估不同硬件上的性能,实验在两台不同的台式计算机上进行,具体硬件配置如下表所示:
| 系统 | CPU | RAM | GPU | 工作磁盘 | 可用磁盘空间 | 操作系统 |
|---|
超级会员免费看
订阅专栏 解锁全文
48

被折叠的 条评论
为什么被折叠?



