零基础小白笔记7 | 对bam文件进行去重和过滤

本文介绍了在ChIP-seq实验中进行数据处理时如何识别和去除PCR复制导致的重复read。通过picard的MarkDuplicates工具标记并移除这些重复,以及使用samtools工具如samtoolsview和samtoolsindex进行进一步的过滤和索引创建。
部署运行你感兴趣的模型镜像

  ❀前言:(书接上回)

零基础小白笔记1 | ChIP-seq原理、操作流程、分析流程

零基础小白笔记2 | 数据与样本信息处理

零基础小白笔记3 | 数据处理与质控

零基础小白笔记4 | 数据质控报告全解读

零基础小白笔记5 | 数据清洗与再次质控

零基础小白笔记6 | 使用bowtie2进行数据比对

一、为何要进行去重:

    我们在建库时通常会进行PCR操作。在这个过程中,来自一个DNA片段的两个拷贝可能会锚定在两个reads上,这两条reads都会进行测序。在PCR扩增次数过多的情况下,会导致一些序列持续扩增,而另一些序列扩增到一定程度后便不会再进行,此时便会出现扩增偏差影响置信度。

    一般认为若有两条reads比对到了基因组的同一位置,那么就认为这样的reads是由PCR扩增而来,就会被标记。

二、使用picard去除重复:

1.picard:是一个用于处理和分析生物信息学数据的工具集,主要用于处理与测序数据相关的任务。通过 Picard 工具,可以识别和标记 PCR 重复,这对于测序数据的后续分析是很重要的。

2.使用用法:

picard MarkDuplicates \                     
-INPUT /your/input/file_sort.bam \
-OUTPUT /your/output/file_sort_picard.bam \
-METRICS_FILE /your/info/file_sort_picard.mat \
-REMOVE_DUPLICATES true

(2.1)markduplicates:是 Picard 工具集中的一个命令行工具,主要用于识别和标记测序数据中的 PCR 重复。使用此工具可以帮助研究人员去除PCR重复;

  • -INPUT:表示输入的bam文件;
  • -OUTPUT:表示标记 PCR 重复后的输出文件;
  • -METRICS_FILE:生成的 PCR 重复统计信息文件;
  • -REMOVE_DUPLICATES:true表示默认移除PCR重复的reads;

三、使用samtools工具过滤

samtools view -hb -q 10 -F 4 -@ 6 /your/input/file.bam > /your/output/file_filter.bam

1.samtools view 是 Samtools 工具包中的一个命令,用于查看和转换 SAM/BAM 格式的文件,也可用于过滤掉质量比较低的序列;

2. 用法:samtools view  [options]  <in.bam>|<in.sam>|<in.cram> 

  • -b,--bam:输出以 BAM 格式显示。如果输入文件已经是 BAM 格式,则该选项无效;
  • -h,--header:显示文件头信息;
  • -F,--exclude:排除指定的标志位;-F 4 表示删除未配对的reads;
  • -f:表示保留指定标志位;
  • -q:仅显示比对质量大于等于指定阈值的比对;-q 10表示显示对比适量大于10的reads;
  • -@ :表示使用的线程数;
  • >:为重定向符;表示输出文件到指定目录;

四、为bam文件创建目录

samtools index -@ 6 -b /your/input/file_filter.bam

1.samtools index是 Samtools 工具包中的一个命令,用于为 BAM 文件创建索引,以便于快速的随机访问。本操作主要为方便后续操作而创建关于bam文件的目录;将生成一个名为input.bam.bai的索引文件。

2.使用用法:samtools index [-bc] [-m INT]  <in.bam> 

  • -b:表示为bam文件建立一个bai格式的索引;
  • -@:使用的线程数;

您可能感兴趣的与本文相关的镜像

Qwen-Image-Edit-2509

Qwen-Image-Edit-2509

图片编辑
Qwen

Qwen-Image-Edit-2509 是阿里巴巴通义千问团队于2025年9月发布的最新图像编辑AI模型,主要支持多图编辑,包括“人物+人物”、“人物+商品”等组合玩法

BAM文件进行统计通常是为了获取一些关于测序数据的质量、覆盖度、比对情况等信息。以下是一些常用的方法工具: 1. **Samtools**: Samtools是一个非常常用的工具,可以用来处理统计BAM文件。使用Samtools进行统计的常见命令是`samtools flagstat`,它可以提供一些基本的统计信息,如总比对数、比对上的reads数、未比对上的reads数等。 ```bash samtools flagstat input.bam ``` 2. **Picard Tools**: Picard Tools提供了更多的统计功能,特别是`CollectAlignmentSummaryMetrics``CollectGcBiasMetrics`等命令,可以提供详细的比对统计GC偏差信息。 ```bash java -jar picard.jar CollectAlignmentSummaryMetrics R=reference.fasta I=input.bam O=alignment_metrics.txt ``` 3. **QualiMap**: QualiMap是一个用于BAM文件质量评估的工具,可以生成多种统计报告,包括覆盖度、比对质量等。 ```bash qualimap bamqc -bam input.bam -outdir output_dir ``` 4. **MultiQC**: MultiQC并不是一个独立的统计工具,但它可以汇总多个工具的统计结果,生成一个综合的报告。结合上述工具使用,可以获得更全面的统计信息。 ```bash multiqc output_dir ``` 5. **自定义脚本**: 如果需要更具体的统计信息,可以编写自定义脚本(如Python、Perl等)解析BAM文件并提取所需的数据。例如,使用`pysam`库可以方便地读取处理BAM文件。 ```python import pysam bam = pysam.AlignmentFile("input.bam", "rb") total_reads = bam.mapped + bam.unmapped print(f"Total reads: {total_reads}") print(f"Mapped reads: {bam.mapped}") print(f"Unmapped reads: {bam.unmapped}") bam.close() ``` 通过这些方法,你可以对BAM文件进行全面的统计,从而评估测序数据的质量。
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

田不甜啊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值