SAM格式详解

SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多重比对结果。

废话不多说,直接看每一列的表示含义:

下文中read表示sam对应的read,mate表示sam对应read的pairRead

第一列:read name,read的名字通常包括测序平台等信息;

第二列:sum of flags,每个flag用数字来表示,分别为:

1 read是pair中的一条(read表示本条read,mate表示pair中的另一条read)

2 pair一正一负完美的比对上

4 这条read没有比对上

8 mate没有比对上

16 这条read反向比对

32 mate反向比对

64 这条read是read1

128 这条read是read2

256 第二次比对

512 比对质量不合格

1024 read是PCR或光学副本产生

2048 辅助比对结果

通过这个和可以直接推断出匹配的情况。假如说标记不是以上列举出的数字,比如说83=(64+16+2+1),就是这几种情况值和。

第三列:RNAM,reference sequence name,实际上就是比对到参考序列上的染色体号。若是无法比对,则是*;

第四列:position,read比对到参考序列上,第一个碱基所在的位置。若是无法比对,则是0;

第五列:Mapping quality,比对的质量分数,越高说明该read比对到参考基因组上的位置越唯一;  

第六列:CIGAR值,read比对的具体情况,

“M”表示 match或 mismatch;

“I”表示 insert;

“D”表示 deletion;

“N”表示 skipped(跳过这段区域);

“S”表示 soft clipping(被剪切的序列存在于序列中);

“H”表示 hard clipping(被剪切的序列不存在于序列中);

“P”表示 padding;

“=”表示 match;

“X”表示 mismatch(错配,位置是一一对应的);

第七列:MRNM(chr),mate的reference sequence name,实际上就是mate比对到的染色体号,若是没有mate,则是*;

第八列:mate position,mate比对到参考序列上的第一个碱基位置,若无mate,则为0;

第九列:ISIZE,Inferred fragment size.详见Illumina中paired end sequencing 和 mate pair sequencing,是负数,推测应该是两条read之间的间隔(待查证),若无mate则为0;

第十列:Sequence,就是read的碱基序列,如果是比对到互补链上则是reverse completed   eg.CGTTTCTGTGGGTGATGGGCCTGAGGGGCGTTCTCN 

第十一列:ASCII,read质量的ASCII编码。

第十二列之后:Optional fields,可选的区域


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值