四种不同的SNP calling算法call低碱基覆盖度测序数据时,SNVs数量的比较(Comparing a few SNP calling algorithms using low-coverag...

本文对比了SOAPsnp、AtlasSNP2、GATK和SAMtools四种SNP calling算法的效果。结果显示,SOAPsnp叫出的SNVs最多,而AtlasSNP2最严格叫出的最少。GATK和Atlas-SNP2具有较高的阳性率和灵敏度。碱基覆盖度提高时,叫出的SNVs数量减少,但趋势逐渐平缓。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要:如果不设置任何过滤标准的话,SOAPsnp会call出更多的SNVs;AtlasSNP2算法比较严格,因此call出来的SNVs数量是最少的,GATK 和 SAMtools call出来的数量位于SOAPsnp 和 Atlas-SNP2之间;四种calling算法的整体一致性是很低的,尤其在non-dbSNPs数据库中;GATK 和 Atlas-SNP2有较高的阳性call率和灵敏性,GATK call出来的SNVs数量比较多。

1、dbSNP数据库和non-dbSNPs在用四种不同软件call出来的SNVs的比较:
对于修剪过的reads(指的是去除低质量的碱基),在四种分析软件中,dbSNP数据库一致性比non-dbSNP数据库好,因为dbSNP数据库的variants位置更常见,因此比较容易被call出来

2、raw reads和修剪过的reads(指的是去除低质量的碱基),call出来的SNVs数量比较:

比起raw data,修剪过的reads,call出来的variants会比较多,SOAPsnp call出来的variants比其他三个软件多,可能是因为这个软件对SNP filter的要求没那么严格

3、不同碱基覆盖度阈值时,四种不同软件call出来的SNVs比较:

碱基覆盖度由3X上升到4X时,SNVs call出来的数量骤然下降了50%,当上升到10X时,call率下降了15%。SOAPsnp call出来的变异是最多的,Atlas-SNPs call 率是最少。然而,对于同一个软件来说,随着碱基覆盖度上升,call出来的数量变少的趋势在变慢。

 

参考文献:Yu, Xiaoqing, and Shuying Sun. "Comparing a few SNP calling algorithms using low-coverage sequencing data." BMC bioinformatics 14.1 (2013): 274.

 

转载于:https://www.cnblogs.com/chenwenyan/p/8258911.html

GATK (Genome Analysis Toolkit) 是一款广泛用于遗传学研究的工具包,尤其适用于第二代高通量测序数据(如Illumina)的分析,其中Snp Calling(单核苷酸多态性检测)是一个关键步骤。以下是使用GATK进行SNP Calling的一般流程: 1. **数据预处理**: - 使用BWA、SAMtools等工具将原始FASTQ文件对齐到参考基因组上,得到 BAM 文件。 - 使用Picard或Samtools进行排序和标记 duplicates (重复读取),以减少噪音。 2. **局部真实ignment和realignment**: - 如果需要,运行GATK的IndelRealigner,针对插入删除事件进行校正。 3. **Base Recalibration**: - 使用GATK的BaseRecalibrator工具生成质量评分模型,以修正测序错误。 4. **Variant Calling**: - 使用HaplotypeCaller (GATK 3.x及以上版本) 或 GATK Variant Discovery Workflow (GATK 2.x版本) 进行SNP和InDel的联合检测。 - HaplotypeCaller会尝试从序列数据中组装出每个样本的haplotype块,并基于此推断变异信息。 5. **过滤和annoation**: - 使用Variant Filtration模块(如Filter variants by annotation),应用一些标准过滤规则(如QD、DP、FS、MQRankSum等)筛选高质量的SNPs。 - 通过Annotator添加额外的信息,比如功能注释、数据库匹配等。 6. **VCF转换和报告生成**: - 将结果转换成VCF (Variant Call Format) 格式,以便于后续分析和可视化。 代码解析: GATK命令行通常包含多个步骤的组合,例如: ```bash java -jar GenomeAnalysisTK.jar \ -T HaplotypeCaller \ -R reference.fa \ -I input.bam \ -o output.vcf \ --emitRefConfidence GVCF \ --variant_index_type LINEAR \ --variant_index_parameter 128000 \ --minPruning 3 \ --max_alternate_alleles 6 ``` 这里的参数含义: - `-T` 指定工具类型 (HaplotypeCaller) - `-R` 参考基因组文件 - `-I` 输入的BAM文件 - `-o` 输出的VCF文件 - `--emitRefConfidence GVCF` 生成Genotyping Likelihoods for every position in the genome,而不是只记录变异 - 其他选项如`--minPruning`控制最小的同源性支持来合并潜在的SNP
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值