测序数据处理全流程解析
1. BAM文件数据解读
测序数据处理中,制表符分隔的条目包含了丰富信息,如序列标识符(成对读取的标识符相同)、读取映射到的染色体及位置、其配对读取的相同信息、CIGAR字段、标志、映射质量得分以及原始片段长度。
例如,示例序列映射到7号染色体的117559533位置,其配对读取映射到同一染色体的117559783位置。CIGAR 67M3D83M表示67 + 83 = 150个核苷酸与基因组参考完美匹配(M),中间有3bp的缺失(D)。标志99表示这是配对读取中的第一个读取,且两个读取都已映射。映射质量得分60(最高分)表明映射质量极佳,片段大小估计为400个核苷酸,处于正常范围。
BAM文件字段的定义可在 samtools.github.io/hts - specs/SAMv1.pdf 的第6页找到,标志字段值的解释可参考 broadinstitute.github.io/picard/explain - flags.html 。
2. 下载和安装GATK软件
我们将使用Broad Institute推荐的最佳实践,并使用流行的Genome Analysis ToolKit(GATK)软件来处理对齐的测序读取。以下是下载和安装GATK软件的步骤:
1. 访问
超级会员免费看
订阅专栏 解锁全文
616

被折叠的 条评论
为什么被折叠?



