近日,Sentieon Inc.与MGI合作正式推出高通量测序数据分析一体机Zieon。双方团队详细讨论并测试了华大智造MegaBOLT和Sentieon软件模块的性能,采用合适的模块组合推出了Zieon数据分析一体机。数据显示,Zieon在准确率提升的同时可加速46倍左右。
Zieon是一套高性能的重测序分析系统,整合了华大智造MegaBOLT以及Sentieon软件这两套加速方案。该方案包含胚系突变(Germline)与体细胞突变(Somatic)的全基因组(WGS)、全外显子组(WES)及Panel靶向测序数据分析,完成从测序序列文件fq.gz输入至变异检测结果vcf.gz输出的计算以及各项QC流程。通过硬件加速卡,软件优化模块及多任务调度系统进行计算加速,与开源常规流程相比,Zieon在准确率提升的同时可加速46倍左右。

工作原理
当前包括CPU、GPU以及FPGA在内,有多种计算构架被应用在了高通量测序数据分析的流程中,这些不同架构硬件对流程中不同类型的处理模块也是效率各异。例如,FPGA硬件内部采用多流水线计算结构,在“比对”等逻辑步骤简单但是并发数据较大的步骤上效率较高,而CPU硬件则对变异检测等需要大量逻辑判断的步骤更为合适。

效率上的差异也是本次合作的主要技术思路,将上游比对工作交给FPGA硬件完成,下游工作交给CPU处理,同时开发一个任务调度系统以平衡不同硬件之间的任务负载。在本次合作中,双方团队详细讨论并测试了MegaBOLT和Sentieon模块的性能,采用合适的模块组合推出了适合于胚系变异以及肿瘤变异的分析流程供用户使用。同时,该方案在核心处理流程以外,提供了完善的质控数据以及基于互动页面的分析报告。
操作界面
Zieon基因数据分析一体机,为生信分析一线工作者,提供了从测序数据到突变报告的一站式分析服务,使得不同领域的用户可以轻松上手,在大大提升计算效率的同时,让使用者快速上手,最短时间投入到科研诊断环境中。


数据分析效率
以胚系变异检测流程为例,研究团队采用MegaBOLT-Scheduler连续投递30x全基因组下机数据,使用Zieon工作站硬件环境,分别统计开源GATK方案、MegaBOLT方案、Sentieon方案以及Zieon方案的用时,以每24小时的处理通量来展示。

可以看出,在不改变硬件环境的情况下,Zieon方案仅需要52分钟即可完成一个全基因组的数据分析,相对于开源GATK方案提速46倍,相比MegaBOLT或者Sentieon也提速2倍左右,显示了整合方案对于硬件的高效应用。
Zieon工作站单日处理通量高达2.5T,基本可以匹配T7的测序通量,配合MGI任务调度系统,达到当日下机,当日分析,当日完成的目的。Zieon还提供机架式部署以针对更高通量的分析需求,比工作站的通量提升3倍以上。
##数据分析精度
Zieon的胚系变异流程整合了Sentieon DNAscope模块,以及专门适配DNBseq数据的机器学习模型,在分析准确度上远超开源GATK流程,SNP的准确度超过99.9%,Indel超过99.5%。通过下图PCR-free 30x的全基因组测试数据可以看出,这套基于机器学习原理的分析流程可以更好的识别DNBseq测序数据的特定错误范式,将测序错误与真实的突变精准的区分开来。

此外,Zieon这套分析流程允许将全基因组的测序深度降低到20x,通过软件纠错的方式,达到或超过30x测序深度GATK分析流程的准确度。在大幅提高分析效率的同时,有效降低测序成本。
Sentieon与MGI合作的Zieon数据分析一体机整合了MegaBOLT和Sentieon软件,提供从测序到变异检测的全基因组分析。借助FPGA硬件和任务调度系统,Zieon在提升46倍效率的同时保证准确性。操作界面友好,适合生信分析工作者,尤其在胚系变异检测中表现出高效率和精确度。
2793

被折叠的 条评论
为什么被折叠?



