测序数据质控及数据量计算

探序基因肿瘤研究院   整理

数据量的单位:

Gb(gigabases,10^9碱基对) ,Mb(megabases,10^6碱基对) 

测序数据量(bp) = 目标区域大小(bp)×测序深度(x)

测序数据量(bp) = reads长度 X reads个数 (reads长度很容易得知,reads个数等于测序所得到的fastq文件的总reads数,计算时候需要注意单端与双端测序)

计算案例:

如测序数据量为1G,测序的基因组大小为1M,那么测序深度为1G/1M=1000×,表示平均每个碱基被测了1000次。

如果一个人的基因组大小为3Gb,而测序深度为30x,则总共需要测序90Gb的数据量。

使用samtools flagstat来比对bam文件统计数据量:

samtools flagstat -@ 10 xxx.bam

636525558 + 0 in total (QC-passed reads + QC-failed reads)
633315750 + 0 primary
3209808 + 0 secondary
0 + 0 supplementary
0 + 0 duplicates
0 + 0 primary duplicates
636184858 + 0 mapped (99.95% : N/A)
632975050 + 0 primary mapped (99.95% : N/A)
633315750 + 0 paired in sequencing
316668885 + 0 read1
316646865 + 0 read2
623282944 + 0 properly paired (98.42% : N/A)
632926202 + 0 with itself and mate mapped
48848 + 0 singletons (0.01% : N/A)
7876402 + 0 with mate mapped to a different chr
5437896 + 0 with mate mapped to a different chr (mapQ>=5)

总数据量:(636525558 * 150)/ 10^9 = 95G

参考:

测序深度和测序数据量应该测多少?

http://www.360doc.com/content/21/0714/12/76149697_986499266.shtml

测序深度和测序数据量-优快云博客

测序数据存储解析-优快云博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值