生信软件3 - mapping比对bam文件质量评估工具 qualimap

Qualimap是一款强大的生物信息学工具,它提供了对BAM文件的质量控制(QC)功能,包括单个样本、RNA-seq样本和多样本的统计分析。用户可以通过简单的命令行接口进行操作,生成详细的报告和可视化图形。此外,文章还提到了其他相关生信软件如visNano和picard。

qualimap简介

qualimap可用于统计bam文件,输出结果包含可视化图形和详细统计信息,以及每条contig的mapping信息。

软件官网及案例

http://qualimap.conesalab.org/
案例
http://qualimap.conesalab.org/doc_html/samples.html#bam-samples

安装

wget https://bitbucket.org/kokonech/qualimap/downloads/qualimap_v2.2.1.zip

# 解压
unzip qualimap_v2.2.1.zip

# 进入软件目录
cd qualimap_v2.2.1
# 查看帮助信息
./qualimap -h

软件模块

bamqc: 用于单个bam文件的QC统计
rnaseq: 用于转录组RNA-Seq样本的bam文件的QC统计
multi-bamqc: 用于多样本的bam文件分组QC统计
counts: 用于转录组数据计数的统计,用于量化表达水平
clustering: 用于表观遗传特征的聚类
comp-couts: 输入bam文件和注释文件,计算映射到每个区域reads的数量

运行

1. 执行bamqc模块命令

bamqc模块用于单个NGS样本bam文件的统计。

qualimap bamqc -bam sample.bam \  # 指定bam文件路径
					-outformat PDF:HTML \  # 输出文件格式
					-outdir out \        #输出文件目录
					-nt 12 \             # 线程数
					--java-mem-size=10G  #设置最大内存

程序运行结束后,统计信息在report.pdf文件中查看。

report.pdf中部分图表如下所示:

Summary - Globals

2. 执行rnaseq模块命令

rnaseq模块用于RNA-seq数据的bam文件的统计。

qualimap rnaseq -bam sample.bam \  # 指定bam文件路径
					-outformat PDF:HTML \  # 输出文件格式
					-outdir out \        #输出文件目录
					-nt 12 \             # 线程数
					--java-mem-size=10G  #设置最大内存

3. 执行multi-bamqc模块命令

multi-bamqc模块用于多样本NGS的bam文件的统计和比较。

qualimap multi-bamqc -r \ # -r指定输入bam文件
					-d qualimap.list \     # 输入文件列表
					-outformat PDF:HTML \  # 输出文件格式
					-outdir out \        #输出文件目录
					-nt 12 \             # 线程数
					--java-mem-size=10G  #设置最大内存

其中输入文件列表qualimap.list有三列,每行一个样本,第一列样品名称,第二列 包含路径的bam文件/bamqc结果目录,第三列组名。

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

领域,unique reads(唯一比对的读段)和 multi - mapping reads(多重比对的读段)是在将测序得到的短序列(reads)比对到参考基因组时出现的两种不同情况。 Unique reads 指的是那些在参考基因组中只有一个最佳比对位置的 reads。这些 reads 能够明确地定位到基因组的某一个特定区域,因此在后续的分析中,它们所携带的息通常比较可靠,能够为基因表达定量、变异检测等分析提供准确的数据支持。例如在基因表达定量分析中,unique reads 可以准确地反映某个基因的转录本丰度。 Multi - mapping reads 则是那些可以比对到参考基因组中多个不同位置的 reads。这种情况通常是由于基因组中存在重复序列,或者基因家族成员之间具有高度的序列相似性导致的。由于这些 reads 无法明确其来源,在后续分析中使用时会带来一定的困难。例如在基因表达定量分析中,很难确定这些 reads 究竟是来自哪个基因。 在代码示例中,以 BWA(Burrows - Wheeler Aligner)比对工具的输出为例,SAM(Sequence Alignment/Map)格式文件中,对于 unique reads 和 multi - mapping reads 有不同的标记。以下是简单的 Python 代码示例,用于统计 unique reads 和 multi - mapping reads 的数量: ```python unique_count = 0 multi_count = 0 with open('alignment.sam', 'r') as f: for line in f: if line.startswith('@'): continue fields = line.strip().split('\t') # 这里简单假设 MAPQ 值为 0 表示 multi - mapping reads if int(fields[4]) == 0: multi_count += 1 else: unique_count += 1 print(f"Unique reads count: {unique_count}") print(f"Multi - mapping reads count: {multi_count}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

每一份鼓励是我坚持下去动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值