1. 为什么要去除重复?
在建库测序后, 加上接头的DNA片段进行PCR扩增(由于连接flowcell的效率很低,所以需要对片段进行扩增),连接至flowcell上。PCR扩增会导致一个片段会测序多次,当该片段存在变异位点时,如果不去除重复片段则会增加该位点的测序深度,会被分析为真的变异位点,从而增加假阳性率。
2. 去除PCR重复方法
使用工具:samtools和picard (已被整合至GATK中,本人使用版本4.2)

2.1 利用FLAG值去除重复
-F参数1024表示过滤PCR重复或光学重复reads,具体FLAG含义参考本人以下文章:
生信分析进阶4 - 比对结果的FLAG和CIGAR信息含义与BAM文件指定区域提取
# f提取,F过滤
samtools view -F 1024 - h sample.bam > sample.rmdup.sam

最低0.47元/天 解锁文章
653

被折叠的 条评论
为什么被折叠?



