全外显子组生信分析流程-4-数据质控

全外显子测序数据质控包括原始序列解读、数据过滤、测序错误率分布检查及质量分布评估。重点在于去除含有接头序列、过多N碱基和低质量碱基的reads,确保Q30占比达到80%,错误率低于0.1%。

数据质控
测序数据的产生经过了DNA提取、建库、测序等多个步骤,这些步骤会产生低质量或者无效的数据,需要对下机的原始数据进行质控。
1.原始序列数据解读
高通量测序得到的原始图像数据经过碱基识别(base calling)分析转化为原始测序序列(reads),我们称之为raw data,结果以fastq文件格式存储,该文件包含序列信息和序列的质量信息。一条read由4行描述:
在这里插入图片描述
第1行:以@开头,随后是Illumina测序标识符(sequence identifier)进而描述性文字(上机相关信息);
第2行:序列“ATCGN”,N指未识别碱基;
第3行:+
第4行:碱基的测序质量,与第2行对应。
!jk在这里插入图片描述
第四行数值换算方法是,每个字符对应的ASCII值-33,即为碱基质量值。
如果测序错误率用e表示,比如1/1000,Illumina Hiseq的剪接质量值用Qphred表示,Qphred=-10log10(e)
2.测序数据过滤(raw data to clean data)
测序得到的raw data会有少量reads包含接头信息、低质量碱基,为了保证后续分析,数据过滤主要成对去除一下三种情况的reads:
1) 含有接头序列(Adapter)的 Reads;
2) 单端 Read 中N(N表示无法确定碱基信息)的碱基个数超过该条 Read 碱基总 数的 10%的 Re

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值