【生信】Fastq与Fasta格式

本文介绍了Fastq和Fasta两种生物信息学中常用的序列格式。Fastq不仅包含序列信息,还存储了测序质量数据,是高通量测序结果的标准格式。Fasta格式则主要用于表示核苷酸或氨基酸序列,以‘>’开头,后续是序列标识和描述。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Fastq与Fasta格式

一、关于Fastq

FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。

二、Fastq的格式

FASTQ文件中每个序列通常有四行:

  • 第一行,序列标识以及相关的描述信息,以‘@’开头;
  • 第二行是序列;
  • 第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加;
  • 第四行,是质量信息,和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。

例如:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

三、关于Fasta

Fast

<think>嗯,用户想了解息学中常见的文件格式及其用途,特别是要区分fastafastq、sam、bam、bed、wiggle、bedgraph、gff3、gtf这些格式的应用场景。首先,我得回忆一下这些文件格式的基本结构和用途。比如,fasta是最基本的序列格式,通常以“>”开头,后面跟着序列描述和序列本身。而fastq则包含测序序列及其质量评分,每个记录有四行:标识符、序列、分隔符和质量字符串。 接下来是SAM和BAM文件,SAM是文本格式,而BAM是二进制格式,用于存储比对到参考基因组的测序数据。BAM更节省空间,适合大规模数据存储和处理。BED文件用来表示基因组上的区域,比如基因的位置,包含染色体、起始位置、终止位置等息,常用于注释和可视化。 Wiggle和BedGraph都是用来表示基因组上的数值型数据,比如覆盖度或号强度。Wiggle有固定步长和可变步长两种格式,而BedGraph则是基于区间的,可能更灵活一些。不过现在好像BigWig逐渐取代了Wiggle,因为BigWig是二进制的,索引更快,更适合大数据。 GFF3和GTF都是基因注释文件,但结构有所不同。GFF3的第九列用键值对表示属性,而GTF则更严格,有特定的标签如gene_id和transcript_id。它们用于不同的分析流程,比如GTF常用于RNA-seq的转录本组装。 用户可能需要知道每个格式的具体应用场景,比如何时使用BAM而不是SAM,或者为什么选择BedGraph而不是Wiggle。另外,不同格式之间的转换工具也是关键,比如samtools用于SAM/BAM转换,bedtools处理BED文件等。还需要注意版本差异,比如GFF3和GTF的区别,避免混淆。 可能用户的实际需求是处理NGS数据,需要了解存储、分析和可视化时的格式选择。比如,在可视化IGV时,BigWig加载更快,而BED文件可以显示特定区域。另外,数据库如UCSC Genome Browser可能使用这些格式进行数据交换,所以引用中的链接可能提供了更多细节。要确保回答准确,最好参考权威资料,比如提到的UCSC页面或宝典的文章,确保息可靠。最后,成的相关问题需要覆盖格式转换、应用比较和实际使用中的注意事项,帮助用户深入理解。</think>### 息学常见文件格式详解 #### 1. **FASTA** - **格式结构**:以 `>` 开头的描述行,后接多行序列(DNA/RNA/蛋白质)。 ``` >chr1 Homo sapiens chromosome 1 AGCTAGCTAGCT... ``` - **用途**:存储参考基因序列、蛋白质序列等基础数据。 - **特点**:纯文本、无质量息、支持长序列。 #### 2. **FASTQ** - **格式结构**:每个记录包含四行: 1. 以 `@` 开头的序列标识符 2. 序列 3. 以 `+` 开头的分隔符(可选描述) 4. 质量评分字符串(ASCII编码) ``` @SRR001666.1 AGCTAGCTAGCT... + FFDDFFFFHHHH... ``` - **用途**:存储高通量测序原始数据(如Illumina测序结果)。 - **特点**:包含序列和质量息,文件体积大[^1]。 #### 3. **SAM/BAM** - **SAM**(文本格式): - 每行包含比对息(染色体、位置、CIGAR字符串等)。 - 示例: ``` ERR1341796.1 16 chr1 100 60 8M * 0 0 AGCTAGCT FFFFFFFF ``` - **BAM**:SAM的二进制压缩版本,支持索引(`.bai`),体积小、处理快。 - **用途**:存储测序数据参考基因组的比对结果,用于变异检测、表达量分析等。 #### 4. **BED** - **格式结构**:制表符分隔,至少3列:`chrom`、`start`、`end`,可扩展至12列(定义颜色、方向等)。 ``` chr1 100 200 gene1 0 + ``` - **用途**:标注基因组区域(如基因、调控元件),支持UCSC Genome Browser可视化。 #### 5. **Wiggle (WIG) / BedGraph / BigWig** - **Wiggle**: - 固定步长模式:`fixedStep chrom=chr1 start=1 step=100` - 可变步长模式:`variableStep chrom=chr1 span=50` - 存储连续数值(如测序覆盖度、ChIP-seq号)[^1]。 - **BedGraph**:基于区间的数值格式,三列基础坐标+第四列数值。 ``` chr1 100 200 25.5 ``` - **BigWig**:Wiggle的二进制压缩格式,支持快速远程访问,适用于大规模数据。 #### 6. **GFF3 vs GTF** - **GFF3**: - 第九列为键值对属性(如`ID=gene01;Name=TP53`),支持复杂注释。 - 示例: ``` chr1 RefSeq gene 100 200 . + . ID=gene01;Name=TP53 ``` - **GTF**: - 第九列为分号分隔的标签,强制包含 `gene_id` 和 `transcript_id`。 - 示例: ``` chr1 Ensembl exon 150 200 . + . gene_id "gene01"; transcript_id "t001"; ``` - **用途**:存储基因/转录本结构注释,GTF多用于RNA-seq分析工具(如Cufflinks)。 --- ### **应用场景对比** | 格式 | 典型场景 | |--------------|--------------------------------------------------------------------------| | FASTA | 参考基因组存储、BLAST数据库构建 | | FASTQ | 原始测序数据质控、过滤、比对前输入 | | BAM | 高通量测序比对结果存储(如GATK流程输入) | | BED | 定义感兴趣区域(如ATAC-seq峰、ChIP-seq结合位点) | | BigWig | 基因组浏览器可视化号轨迹(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

镰刀韭菜

看在我不断努力的份上,支持我吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值