raw data/PF data/Q30 data/clean data的不同

最新推荐文章于 2024-07-22 09:06:10 发布

转载

最新推荐文章于 2024-07-22 09:06:10 发布 · 4k 阅读

8 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/huangyinger/p/10232967.html

文章标签：

#前端 #ViewUI

本文介绍了测序数据的不同阶段，包括原始数据、PF数据、Q30数据和干净数据。原始数据是未经处理的全部测序信息，PF数据通过质控筛选保留高质量片段，Q30数据则进一步确保碱基识别的99.9%可靠性，而干净数据是在PF数据基础上根据特定标准进行深度清理后的结果。

测序数据拿回来之后，会给一些数据。那么这些数据代表什么呢？

1. 原始数据（Raw data）：一次测序产生的全部原始数据。理论上，它们应该是没有经过任何过滤的，无论好坏。

GB和Gb的区别

2. PF数据（PF data）：在测序过程中，Illumina内置软件根据每个测序片段（read，通常每个片段长100个碱基）前25个碱基的质量决定该read是保留还是抛弃。如果没有达到质控标准，则该read的全部碱基都被抛弃；达到标准、保留下来的数据叫做PF data。 PF代表pass filtering。

3. Q30数据（Q30 data）：Illumina内置软件根据统一设定的标准来评判碱基识别结果的可靠性，为每个碱基给予一个质量评分（QV）。PF data里质量评分>=30分的数据称为Q30 data。 Q30的意思是该碱基的可靠性为99.9%。Q30数据通常占PF数据的80%左右。视样本质量、操作水平、试剂质量、仪器状态的不同，这一比例有很大波动。