探序基因肿瘤研究院 整理
数据量的单位:
Gb(gigabases,10^9碱基对) ,Mb(megabases,10^6碱基对)
测序数据量(bp) = 目标区域大小(bp)×测序深度(x)
测序数据量(bp) = reads长度 X reads个数 (reads长度很容易得知,reads个数等于测序所得到的fastq文件的总reads数,计算时候需要注意单端与双端测序)
计算案例:
如测序数据量为1G,测序的基因组大小为1M,那么测序深度为1G/1M=1000×,表示平均每个碱基被测了1000次。
如果一个人的基因组大小为3Gb,而测序深度为30x,则总共需要测序90Gb的数据量。
使用samtools flagstat来比对bam文件统计数据量:
samtools flagstat -@ 10 xxx.bam
636525558 + 0 in total (QC-passed reads + QC-failed reads)
633315750 + 0 primary
3209808 + 0 secondary
0 + 0 supplementary
0 + 0 duplicates
0 + 0 primary duplicates
636184858 + 0 mapped (99.95% : N/A)
632975050 + 0 primary mapped (99.95% : N/A)
633315750 + 0 paired in sequencing
316668885 + 0 read1
316646865 + 0 read2
623282944 + 0 properly paired (98.42% : N/A)
632926202 + 0 with itself and mate mapped
48848 + 0 singletons (0.01% : N/A)
7876402 + 0 with mate mapped to a different chr
5437896 + 0 with mate mapped to a different chr (mapQ>=5)
总数据量:(636525558 * 150)/ 10^9 = 95G
参考:
http://www.360doc.com/content/21/0714/12/76149697_986499266.shtml