Fastq与Fasta格式
一、关于Fastq
FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。
二、Fastq的格式
FASTQ文件中每个序列通常有四行:
- 第一行,序列标识以及相关的描述信息,以‘@’开头;
- 第二行是序列;
- 第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加;
- 第四行,是质量信息,和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。
例如:
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
三、关于Fasta
Fast