fastq和fastqc测序格式介绍 | 生物专业最值得看的哈佛生信笔记01

最新推荐文章于 2025-10-10 10:51:33 发布

原创最新推荐文章于 2025-10-10 10:51:33 发布 · 642 阅读

·

9

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

哈佛生信课笔记专栏收录该内容

2 篇文章

订阅专栏

测序技术简介

第一代测序技术,即Sanger测序,通过在四条不同的车道上进行反应,最终确定DNA序列。

目前主流的第二代测序技术,即lllumina的测序技术,通过在玻璃片上进行大规模平行测序,实现快速、高效的DNA测序。

第三代测序技术,虽然目前还处于原型阶段,但具有单分子测序的潜力。字幕中还提到,第三代测序也许更好,但在需要精确计数的情况下,第二代测序更为合适

Fastq 和 FASTQC

计算生物学家如何处理测序机产生的原始数据。首先,他们需要了解序列数据,特别是来自lllumina测序机的****fastq文件。

该文件包含四行信息:

第一行是Sequence ID,
第二行是Sequence,
第三行是Quality ID。
第四行是Quality score：由33个ASCII码字符表示，可以根据质量，来决定不使用那些序列

为什么要进行指控（Quality Control，QC）

尽管Illumina测序平台具有很高的准确性和可靠性，但在测序过程中仍然可能出现错误，原因多种多样，以下是一些可能导致错误的原因：

化学合成错误：在测序过程中，荧光标记的核苷酸被添加到正在合成的DNA链上。这个过程可能会发生错误，导致错误的核苷酸被添加。
光学检测错误：测序仪通过检测荧光信号来确定每个循环添加的核苷酸类型。光学系统可能因为多种原因（如镜头污染、激光功率不稳定、探测器灵敏度不均一等）产生误差。
簇扩增偏差：在测序前，DNA片段被扩增成簇。如果扩增不均匀，某些簇可能会过度代表，导致测序结果偏差。
序列读取错误：在读取序列时，可能会因为荧光信号弱、背景噪音高或信号重叠等原因导致错误。
样本制备问题：样本制备过程中的许多步骤（如DNA提取、PCR扩增、文库制备等）都可能导致错误，如DNA降解、PCR扩增偏差或引入序列错误。

在illumina测序时，计算机会自动计算出每个bp的quality，一起放在fastq文件当中（也就是第三行和第四行）。

fastq文件实在是太大了，而且你不可能一条一条去检查序列的quality，所以需要QC的软件：FASTQC

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

这里可以看出，通常测序碱基数越多，quality越差。有时如果你测了250bp的，但是因为质量太差，可能只能取前200bp。

note：illumina双端测序通常是150bp

FASTQC的另一个视图中，根据中位数可视化quality

利用碱基分布来可视化的quality。前者其实是质量较好的，因为再后面四种碱基都分布平滑，要注意的是可能需要去除前面的几个碱基。也许是在测序开始的时候出了点问题。

根据GC含量可视化的quality

在我之前处理的转录组的数据。根据QC的结果，使用Trimmomatic软件，可以把rawdata转换成clean data，用于后面的数据分析。

视频链接

哈佛大学生物信息学课：

https://www.bilibili.com/video/BV1yS4y1Z721?spm_id_from=333.788.player.switch&vd_source=495deae41cc91675c82bcb979ebe3326&p=9

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。