基于GATK(Genome Analysis Toolkit)进行SNP calling

本文详细介绍了如何使用GATK与bwa-mem2等工具进行DNA和RNA测序数据的SNPcalling,包括比对、排序、标记重复、统计和最终的变异检测步骤。

GATK(Genome Analysis Toolkit)是进行DNA和RNAseq数据变异检测的常用工具,目前已成为变异检测的“金标准”。
本文提供其与其他软件联合使用进行SNP calling的方法。
所需数据:
参考基因组及其索引ref_genome.fa
PE reads数据:read1.fq.gzread2.fq.gz
在这里插入图片描述

1 比对

首先使用bwa-mem2进行比对,注意ID的设置必须与样品名一致且唯一。

bwa-mem2 \
	mem \
	-M \
	-t 10 \
	-R "@RG\tID:sample1\tSM:sample\tPL:Illumina" \
	ref_genome.fa \
	read1.fq.gz \
	read2.fq.gz \
	> sample1.sam

2 sort

使用gatkSortSam工具进行reads的sort:

gatk \
	SortSam \
	-I sample1.sam \
	-O sample1.bam \
	-SO coordinate \
	-VALIDATION_STRINGENCY LENIENT \
	-CREATE_INDEX true \
	-TMP_DIR ./sample1tmp.sort

3 标记重复序列

比对到参考基因组上的下机数据存在PCR冗余的重复reads,需要将重复的reads进行标记:

gatk \
	MarkDuplicates \
	-I sample1.bam \
	-O sample1.dup.bam \
	-M sample1.dup.txt \
	-REMOVE_DUPLICATES true \
	-VALIDATION_STRINGENCY LENIENT \
	-CREATE_INDEX true \
	-TMP_DIR sample1tmp.dup

4 统计比对情况(可选)

samtools可进行比对情况的统计:

samtools \
	flagstat \
	sample1.dup.bam \
	> sample1.dup.bam.stat

5 变异检测

该步骤是真正意义上的snp calling:

gatk \
	HaplotypeCaller \
	-R ref_genome.fa \
	-I sample1.dup.bam \
	-O sample1.dup.vcf

Ending

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Odd_guy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值