NGS基础---Fasta/Fastq格式记录

原创已于 2022-09-16 16:39:45 修改 · 4.6k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#经验分享

于 2021-12-16 11:31:57 首次发布

NGS基础专栏收录该内容

2 篇文章

订阅专栏

本文介绍了生物信息学中常用的Fasta和Fastq格式，Fasta格式用于存储DNA或Protein序列，由两行组成，一行描述序列信息，一行记录序列。Fastq格式包含序列、质量值和测序信息，每4行信息对应一条序列，质量值通过Phred Quality Score表示。此外，还讨论了质量值的计算方法和不同测序平台的质量值转换。

Fasta/Fastq格式记录

时间：2020-10-21

生信中，常用到Fasta和Fastq格式，这两种是比较基础和常见的序列保存文件。通过wiki和网上资料，对这两种格式进行说明和记录。

1. Fasta格式

Fasta格式文件可以存储DNA(ATCGN)或者Protein序列(Amino Acid)。每两行表示一个序列，其中第一行以 > 开头，后面为序列名称或描述信息；第二行为序列本身。对于DNA序列就是简单的Adenine (A), Guanine (G), Thymine (T), Cytosine ©构成；对于Protein序列，序列是蛋白的英文简称，氨基酸的名称，比较详细的介绍在下面列出：
在这里插入图片描述

丙氨酸（Ala，A）；精氨酸（Arg，R）；天冬酰胺（Asn，N）；天冬氨酸（Asp，D）；半胱氨酸（Cys，C）；谷氨酸（Glu，E）；谷氨酰胺（Gln，Q）；甘氨酸（Gly，G）；组氨酸（His，H）；异亮氨酸（Ile，I）；亮氨酸（Leu，L）；赖氨酸（Lys，K）；甲硫氨酸（Met，M）；苯丙氨酸（Phe，F）；脯氨酸（Pro，P）；丝氨酸（Ser，S）；苏氨酸（Thr，T）；色氨酸（Try，W）；酪氨酸（Tyr，Y）；缬氨酸（Val，V）----特别的，有两个天冬酰胺或天冬氨酸（Asx，B）；谷氨酸或谷氨酰胺（Glx，Z）
在这里插入图片描述

在实际的序列中，会出现下面字母的情况，其中X代表任何氨基酸，星号(*)代表转录终止，短线（-）代表gap：

A  alanine              P  proline       
B  aspartate/asparagine  Q  glutamine      
C  cystine                R  arginine      
D  aspartate           S  serine      
E  glutamate          T  threonine      
F  phenylalanine  U  selenocysteine 
G  glycine                 V  valine        
H  histidine             W  tryptophan        
I  isoleucine            Y  tyrosine
K  lysine                    Z  glutamate/glutamine
L  leucine                  X  any
M  methionine     *  translation stop
N  asparagine       -  gap of indeterminate length

2. Fastq格式

Fastq格式最初由Wellcome Sanger Institute设计，每4行为一条序列信息，其中四行的含义如下：

第一行：以@开头，例如 @A00783:439:HHG7TDSXY:3:1101:8377:1000，其中A00783:439:HHG7TDSXY代表测序仪、run id和flowcell id，3代表flowcell lane编号，1101代表lane中tile的编号，8377代表tile中的x坐标，1000代表tile中的y坐标。
第二行：以AGCTN序列，N代表未测出是哪个碱基
第三行：以+号开头，可以不接信息或者接第一行相同的序列信息
第四行：存储ASCII码转换的质量值，该行与第二行序列是一一对应的关系，准确体现每个碱基的质量值。

有些Fastq的第一行会多出一些信息@A00783:439:HHG7TDSXY:3:1101:8377:1000 1:N:0:GGACTTCT+ACGTCCAT，其中1:N:0:GGACTTCT+ACGTCCAT的含义为1read1，N过滤通过（Y代表过滤未通过），0没有控制点被打开（否则是一个偶数），GGACTTCT+ACGTCCAT为index 序列

3. Phred Qulity Score (质量值)

依据测序仪给出的测序错误概率P，质量值的计算有两种方式：

Q_solexa = -10 × log₁₀ (p/1-p)

Q_sanger = -10 × log₁₀ p

Q_solexa和Q_sanger二者的质量曲线表明，当p<0.05或Q质量>13时没有明显区别，目前主要使用的是Q_sanger计算方法。所以，可以计算：

p = 0.1 Q_sanger = 10
p = 0.01 Q_sanger = 20
p = 0.001 Q_sanger = 30
p = 0.0001 Q_sanger = 40

对于不同的平台，质量值的转换不同，现在主要以Sanger为准，多数为Phred+33（计算的Phred Quality Score + 33），也要注意部分数据可能是Phred+64：

 S - Sanger        Phred+33,  raw reads typically (0, 40)
 X - Solexa        Solexa+64, raw reads typically (-5, 40)
 I - Illumina 1.3+ Phred+64,  raw reads typically (0, 40)
 J - Illumina 1.5+ Phred+64,  raw reads typically (3, 41)
       with 0=unused, 1=unused, 2=Read Segment Quality Control Indicator (bold) 
      (Note: See discussion above).
 L - Illumina 1.8+ Phred+33,  raw reads typically (0, 41)

计算完Phred Quality Score，Fastq文件为了降低存储空间，将质量值转为ASCII对应的单字符，实现高效存储。ASCII表详细对应信息如下，以表格为例，A 代表质量值为65，F代表质量值为70：
在这里插入图片描述通过上面的表可知，在 Phred+33情况下，字母A代表的phred质量是：65-33=32，字母B代表的phred质量是：66-33=33。

简单的例fastq格式为：

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

简单的例fasta格式为：

>test
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

总结

测序产生的序列通常以Fasta和Fastq格式保存，Fastq中除了序列信息，还包括质量信息和测序仪器信息等，高通量测序结果通常以压缩形式的Fastq文件保存和释放（格式例如：filename.fastq.gz），后续分析软件也基本兼容gz格式。

参考：

https://en.wikipedia.org/wiki/FASTA_format

https://en.wikipedia.org/wiki/FASTQ_format

https://zhuanlan.zhihu.com/p/20714540

https://zhuanlan.zhihu.com/p/190778779

https://molbiol-tools.ca/Amino_acid_abbreviations.htm

https://www.neb.com/tools-and-resources/usage-guidelines/amino-acid-structures