Fast Q与 fast A

本文详细介绍了FASTA和FASTQ格式的特点和用途,包括FASTQ格式的四行内容解析,phred值的计算方法及其与测序质量的关系,以及FASTA格式的构成和应用场景。同时,提供了对这两种格式进行编程操作的基本指导。

一 基础知识

1.1掌握FASTQ格式
(1)格式有什么特点?
fastq内容格式有4行:
第1行主要储存序列测序时的坐标等信息;
举个例子:
• @ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
• 1. @,开始的标记符号;
• 2. ST-E00126:128:HJFLHCCXX,测序仪唯一的设备名称;
• 3. 2,lane的编号;
• 4. 1101,tail的坐标;
• 5. 7405,在tail中的X坐标;
• 6. 1133,在tail中的Y坐标
- 第2行就是测序得到的序列信息,一般用ATCGN来表示,其中N用于荧光信号干扰无法判断到底是哪个碱基时的代表符号;
- 第3行以“+”开始,可以储存一些附加信息,但目前的测序fastq文件这一行一般是空的。
- 第4行储存的是质量信息,与第2行的碱基序列是一一对应的,其中的每一个符号对应的ASCII值是经过换算的phred值,可以简单理解为对应位置碱基的测序质量值,越大说明测序的质量越好。不同的版本对应的phred值范围不同。
(2) 什么是phred值,怎么计算?
是评估这个bp测序质量的值,测序仪通过判断荧光信号的颜色来判断碱基的种类,ATCG分别对应红黄蓝绿,信号强弱不同,在这种情况下对每个结果的判断的正确性都存在一个概率值,这个值被储存为ASCII码形式,转化方式如下:
将该碱基判断错误概率值P取log10之后再乘以-10,得到的结果为Q。
比如,P=1%,那么对应的Q=-10*log10(0.01)=20(这个计算公式illumina平台使用,Solexa系列测序仪使用不同的公示来计算质量值:Q=-10log(P/1-P))
把这个Q加上33或者64转成一个新的数值,称为Phred,最后把Phred对应的ASCII字符对应到这个碱基。
如Q=20,Phred = 20 + 33 = 53,53在ASCII码表里对应的ASCII符号是”5”
(3) phred33 与 phred64是什么意思?
质量字符的ASCII值和质量得分的关系有如下两种:可以粗略分为 Phred+33和Phred+64,这里的33和64就是指ASCII值转换为Q该减去的数值。
在处理测序数据时,因为一些软件会根据碱基质量得分的不同做不同的处理,常要指定正确的编码方式,有必要对质量字符与质量得分的关系(Phred+33或Phred+64)作出正确的判断。当然,如果处理的是最近两年产生的测序数据,基本上都是Phred+33的,但从NCBI SRA数据库下载的较早的数据可能不同,需要注意。

1.2 FASTA格式的构成是怎样的,有什么样的规律?
fasta格式用于储存序列,可以储存DNA、RNA和蛋白质序列,一般分为两个部分,第1行是以>开头的序列描述信息,包括数据库中的编号,序列名称,序列类型,剩余的为序列信息,以蛋白质和mRNA序列文件为例:
蛋白质fasta文件
• 以>开头
• sp|P69905 数据库编码
• HBA_HUMAN Hemoglobin subunit alpha 蛋白质名称
• OS=Homo sapiens 所属物种
• GN=HBA1 基因名称
sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKLASVSTVLTSKYR`
核酸序列文件(mRNA序列中的U均用T来代替)
• 以>开头
• gi|13650073 基因ID
• gb|AF349571.1 genebank编号
• Homo sapiens hemoglobin alpha-1 globin chain (HBA1) 基因名称
• mRNA, complete cds 序列类型
gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCT

1.3 什么序列适合用FASTA保存,什么序列适合用FASTQ保存?
单纯的蛋白或者核酸的序列信息一般用FASTA格式保存,而测序文件一般用包含仪器信息和测序质量的FASTQ格式保存。

二 编程操作:

对FASTQ的操作
• 5,3段截掉几个碱基
• 序列长度分布统计
• FASTQ 转换成 FASTA
• 统计碱基个数及GC%

对FASTA的操作
• 取互补序列
• 取反向序列
• DNA to RNA
• 大小写字母形式输出
• 每行指定长度输出序列
• 按照序列长度/名字排序
• 提取指定ID的序列
• 随机抽取序列

高级难度:
• 根据坐标取序列
• 多文件合并
• 根据ID列表取序列
• GTF文件探索
• 简并碱基的引物序列还原成多条序列
• snp进行注释并格式化输出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值