介绍
本文介绍了使用Sentieon®工具处理下一代测序数据的方法,同时利用分子条码信息(也称为唯一分子索引或UMI)。分子条码可以在测序之前在模板DNA分子的末端引入唯一标签,从而大大减少PCR重复和测序错误对变异调用过程的影响。
Sentieon®工具提供从读数据中提取UMI标签和执行基于条码的一致性生成的功能。此流程预期输入是无适配器的条形码化读取数据。UMI一致性流程的输出是一个包含从条形码读数据派生出的一致性分子的BAM文件。这些一致性分子可以作为大多数变异调用软件的输入。
Sentieon® UMI流程
整体UMI流程结构
Sentieon®提供了两个用于UMI NGS数据处理的实用工具:
umi extract:从已删除适配器的未对齐输入读取中提取UMI标签
umi consensus:在对齐输入上,具备条码感知的重复删除和一致性调用
Sentieon®建议使用以下典型的UMI处理流程(图1):
使用工具umi extract从未对齐的输入读取中提取UMI标签
使用Sentieon®bwa mem将其对齐到参考基因组
使用工具umi consensus进行UMI一致性调用
使用Sentieon®bwa mem将一致性读取对齐并排序到参考基因组
图1 Sentieon® UMI处理流程
以下是一个代码示例。每个组件的详细信息将在后续部分进行解释。
sentieon umi extract \
8M12S+T,+T \
sample_R1.fastq.gz \
sample_R2.fastq.gz | \
sentieon bwa mem \
-R "@RG\tID:$GROUP\tSM:$SAMPLE\tLB:$LIBRARY\tPL:$PLATFORM" \
-t $NT \
-K $BWA_K_SIZE \
-p \
-C \
$REF \
- | \
sentieon umi consensus \
-o sample_consensus.fastq.gz
sentieon bwa mem \
-R "@RG\tID:$GROUP\tSM:$SAMPLE\tLB:$LIBRARY\tPL:$PLATFORM" \
-t $NT \
-K $BWA_K_SIZE \
-p \
-C \
$REF \
sample_consensus.fastq.gz | \
sentieon util sort \
-i - \
-o sample_consensus.bam \
--sam2bam --umi_post_process
确定读取结构并提取条形码序列
作为第一步,您需要从输入读取中提取条形码序列。这可以使用Sentieon®umi extract命令来完成,它会从读取中提取条形码序列信息,并将其添加到读取描述中。如前所述,在运行umi标签提取之前,应从输入读取中删除适配器序列。这可以由其他第三方工具来完成。