Sentieon应用教程 | 唯一分子标识符(UMI)

介绍

本文介绍了使用Sentieon®工具处理下一代测序数据的方法,同时利用分子条码信息(也称为唯一分子索引或UMI)。分子条码可以在测序之前在模板DNA分子的末端引入唯一标签,从而大大减少PCR重复和测序错误对变异调用过程的影响。

Sentieon®工具提供从读数据中提取UMI标签和执行基于条码的一致性生成的功能。此流程预期输入是无适配器的条形码化读取数据。UMI一致性流程的输出是一个包含从条形码读数据派生出的一致性分子的BAM文件。这些一致性分子可以作为大多数变异调用软件的输入。

Sentieon® UMI流程

整体UMI流程结构

Sentieon®提供了两个用于UMI NGS数据处理的实用工具:

umi extract:从已删除适配器的未对齐输入读取中提取UMI标签
umi consensus:在对齐输入上,具备条码感知的重复删除和一致性调用

Sentieon®建议使用以下典型的UMI处理流程(图1):

使用工具umi extract从未对齐的输入读取中提取UMI标签
使用Sentieon®bwa mem将其对齐到参考基因组
使用工具umi consensus进行UMI一致性调用
使用Sentieon®bwa mem将一致性读取对齐并排序到参考基因组

图1 Sentieon® UMI处理流程

以下是一个代码示例。每个组件的详细信息将在后续部分进行解释。

sentieon umi extract \
  8M12S+T,+T \
  sample_R1.fastq.gz \
  sample_R2.fastq.gz | \
sentieon bwa mem \
  -R "@RG\tID:$GROUP\tSM:$SAMPLE\tLB:$LIBRARY\tPL:$PLATFORM" \
  -t $NT \
  -K $BWA_K_SIZE \
  -p \
  -C \
  $REF \
  - | \
sentieon umi consensus \
  -o sample_consensus.fastq.gz

sentieon bwa mem \
  -R "@RG\tID:$GROUP\tSM:$SAMPLE\tLB:$LIBRARY\tPL:$PLATFORM" \
  -t $NT \
  -K $BWA_K_SIZE \
  -p \
  -C \
  $REF \
  sample_consensus.fastq.gz | \
sentieon util sort \
  -i - \
  -o sample_consensus.bam \
  --sam2bam --umi_post_process
确定读取结构并提取条形码序列

作为第一步,您需要从输入读取中提取条形码序列。这可以使用Sentieon®umi extract命令来完成,它会从读取中提取条形码序列信息,并将其添加到读取描述中。如前所述,在运行umi标签提取之前,应从输入读取中删除适配器序列。这可以由其他第三方工具来完成。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值