.sam 文件介绍

本文详细介绍了SAM文件格式的各项字段含义,包括比对片段编号、位标识、参考序列编号等,并解释了CIGAR字符串如何简洁地表达比对信息。
1QNAME,比对片段的(template)的编号;
2FLAG,位标识,template mapping情况的数字表示,每一个数字代表一种比对情况,这里的值是符合情况的数字相加总和;
3RNAME,参考序列的编号,如果注释中对SQ-SN进行了定义,这里必须和其保持一致,另外对于没有mapping上的序列,这里是’*‘;
4POS,比对上的位置,注意是从1开始计数,没有比对上,此处为0;
5MAPQ,mappint的质量;
6CIGAR,简要比对信息表达式(Compact Idiosyncratic Gapped Alignment Report),其以参考序列为基础,使用数字加字母表示比对结果,比如3S6M1P1I4M,前三个碱基被剪切去除了,然后6个比对上了,然后打开了一个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的;
7RNEXT,下一个片段比对上的参考序列的编号,没有另外的片段,这里是’*‘,同一个片段,用’=‘;</span>
8PNEXT,下一个片段比对上的位置,如果不可用,此处为0;
9TLEN,Template的长度,最左边得为正,最右边的为负,中间的不用定义正负,不分区段(single-segment)的比对上,或者不可用时,此处为0;
10 SEQ,序列片段的序列信息,如果不存储此类信息,此处为’*‘,注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度;
11QUAL,序列的质量信息,格式同FASTQ一样。



转载自博耘生物 点击打开链接

<think>我们正在处理一个关于minimap2命令输出的问题。用户运行了以下命令: minimap2 -ax splice:hq -uf /data1/SYK/STAR_RESM/RNAseq_index/human_index/GRCh38.p13.genome.fa /data3/SRR30947476_subreads.fastq.gz > aln.sam 用户有两个问题: 1. 结果文件是否为aln.sam? 2. 如何查看aln.sam文件? 首先,关于第一个问题:命令中的重定向符号“>”表示将标准输出重定向到文件aln.sam。因此,minimap2的输出(即比对结果)会被写入到aln.sam文件中。所以,是的,结果文件就是aln.sam。 其次,关于如何查看aln.sam文件: 由于aln.sam是一个文本文件(尽管可能很大),我们可以使用一些文本文件查看命令来查看其内容。常见的命令有: - `head aln.sam`:查看文件开头若干行(默认为10行) - `tail aln.sam`:查看文件末尾若干行 - `less aln.sam`:分页查看文件,支持搜索翻页(推荐) - 如果文件非常大,可以使用`less -S aln.sam`来避免长行折行,便于查看。 另外,注意:SAM文件是制表符分隔的文本文件,包含头部(以@开头)比对记录(每行11个字段)。我们可以通过查看头部来了解一些信息,比如参考序列、程序信息等。 但是,由于SAM文件可能非常大(尤其是全基因组测序数据),我们不建议用文本编辑器直接打开,而应该使用上述命令行工具。 此外,用户可能需要将SAM文件转换为BAM文件(二进制格式)以便更高效的处理。这可以通过`samtools view -bS aln.sam > aln.bam`来实现。但用户目前的问题只是查看,所以先介绍查看方法。 最后,提醒用户,如果文件很大,使用`less`或`head/tail`是比较安全的选择。 现在,根据用户要求,我们需要生成相关问题。相关问题应该围绕这个命令、输出文件以及后续处理步骤。 生成的相关问题: 1. 如何将aln.sam文件转换为BAM文件? 2. 如何对aln.sam文件进行排序索引? 3. 如何解释aln.sam文件中的内容(例如,如何理解每一列的含义)? 4. 如果aln.sam文件过大,有什么方法可以压缩或分割查看? 5. 如何检查minimap2生成的aln.sam文件是否完整? 6. 如何统计aln.sam文件中的比对率? 注意:用户的问题是基于一个具体的命令,所以相关问题也应围绕这个命令的输出处理。 </think>### 确认命令输出文件 运行命令 `minimap2 -ax splice:hq -uf /data1/SYK/STAR_RESM/RNAseq_index/human_index/GRCh38.p13.genome.fa /data3/SRR30947476_subreads.fastq.gz > aln.sam` 后: **结果文件确实是 `aln.sam`**。 原因:Linux 中的 `>` 符号表示将标准输出重定向到指定文件。minimap2 的比对结果默认输出到标准输出,因此会完整写入 `aln.sam`[^1]。 --- ### 查看 aln.sam 文件的方法 #### 1. 命令行直接查看 ```bash # 查看前10行(含头部信息) head aln.sam # 查看后10行(比对记录) tail aln.sam # 分页查看(推荐:支持搜索/翻页) less -S aln.sam # -S 防止长行自动换行 ``` **说明**: - SAM 文件是纯文本格式,包含**头部**(以 `@` 开头的元数据)**比对记录**(每行11列) - 按 `q` 退出 `less` 模式 #### 2. 转换为 BAM 后可视化 若需高效处理大型 SAM 文件: ```bash # 转二进制 BAM 格式 samtools view -b aln.sam > aln.bam # 排序并建立索引 samtools sort aln.bam -o aln.sorted.bam samtools index aln.sorted.bam # 使用 IGV 等基因组浏览器加载 BAM 文件可视化比对结果 ``` #### 3. 关键信息提取 ```bash # 统计比对率 samtools flagstat aln.sam # 提取未比对序列 samtools view -f 4 aln.sam > unmapped.sam ``` --- ### 注意事项 1. **
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值