简介
序列比对结果文件是用于存储高通量测序数据与参考基因组比对结果的文件,它们记录了每个测序片段(read)在参考基因组上的位置、比对质量、可能的变异等信息。这些文件通常以SAM或BAM格式存在,是生物信息学分析中不可或缺的数据类型。
首先我们要有参考基因组,使用bwa的index先根据参考基因组建立索引。
bwa-mem2-2.0pre2_x64-linux/bwa-mem2 index <your reference genome.fna>
然后使用bwa的mem
程序(使用Maximal Exact Matches算法),进行比对。这个算法是bwa软件包中的一个比对算法,用于将测序reads与参考基因组进行比对。MEM算法的核心思想是找到read与参考基因组之间的最长精确匹配片段,然后基于这些匹配片段进行局部比对和链延伸,以确定整个read的最佳比对位置。从而得到比对结果sam文件
bwa-mem2 mem ref.fa read1.fq read2.fq > out.sam
大多数时候我们都会使用samtools将sam转换为bam格式的文件,然后进行后续的计算。对比对结果文件,使用samtools depth来计算reads匹配到基因组上的深度。具体原理可以看我上一期的文章
samtools view
samtools sort
samtools index
samtools depth
SAM文件
SAM(Sequence Alignment/Map)
文件是一种用于存储高通量测序数据比对结果的文本格式文件。它被设计用来记录测序 reads 与参考基因组之间的对应关系,并包含了许多关于比对的信息。
SAM文件是生物信息学分析中的一个重要中间文件,常用于存储高通量测序数据的初步比对结果,并作为后续分析的输入。
但SAM文件通常不是我们直接处理的文件,压缩后的BAM通常更常用。所以不是今天介绍的
-
**文件大小:**SAM文件是文本格式,因此它们通常比BAM文件大得多。由于高通量测序数据量通常非常大,SAM文件会占用更多的存储空间。
-
**处理速度:**由于BAM文件是二进制格式,它们可以更快地被读取和写入,这对于处理大规模数据集来说非常重要。
-
**索引:**BAM文件可以创建索引(.bai文件),这使得随机访问特定的基因组区域变得非常快速,这对于许多分析工具来说是一个重要的特性。
BAM
BAM(Binary Alignment/Map)文件是一种用于存储高通量测序数据比对结果的二进制文件格式。它是SAM(Sequence Alignment/Map)格式的二进制等效形式,但具有更高效的存储和访问特性。
当你使用les来查看bam文件时,他通常会提醒你这是一个二进制文件,
然后打开时,你会发现其中都是乱码,换种话说,就是非可读的内容
不可读也不重要,毕竟计算depth才是我们的最终目的。
有许多工具可以处理BAM文件,其中最著名的是samtools。samtools提供了多种功能,包括排序、索引、过滤、提取比对记录等。