fastq和fastqc测序格式介绍 | 生物专业最值得看的哈佛生信笔记01

测序技术简介

第一代测序技术,即Sanger测序,通过在四条不同的车道上进行反应,最终确定DNA序列。

目前主流的第二代测序技术,即lllumina的测序技术,通过在玻璃片上进行大规模平行测序,实现快速、高效的DNA测序。

第三代测序技术,虽然目前还处于原型阶段,但具有单分子测序的潜力。字幕中还提到,第三代测序也许更好,但在需要精确计数的情况下,第二代测序更为合适

Fastq 和 FASTQC

计算生物学家如何处理测序机产生的原始数据。首先,他们需要了解序列数据,特别是来自lllumina测序机的****fastq文件


该文件包含四行信息:

  • 第一行是Sequence ID,

  • 第二行是Sequence,

  • 第三行是Quality ID

  • 第四行是Quality score:由33个ASCII码字符表示,可以根据质量,来决定不使用那些序列

为什么要进行指控(Quality Control,QC)

尽管Illumina测序平台具有很高的准确性和可靠性,但在测序过程中仍然可能出现错误,原因多种多样,以下是一些可能导致错误的原因:

  1. 化学合成错误:在测序过程中,荧光标记的核苷酸被添加到正在合成的DNA链上。这个过程可能会发生错误,导致错误的核苷酸被添加。

  2. 光学检测错误:测序仪通过检测荧光信号来确定每个循环添加的核苷酸类型。光学系统可能因为多种原因(如镜头污染、激光功率不稳定、探测器灵敏度不均一等)产生误差。

  3. 簇扩增偏差:在测序前,DNA片段被扩增成簇。如果扩增不均匀,某些簇可能会过度代表,导致测序结果偏差。

  4. 序列读取错误:在读取序列时,可能会因为荧光信号弱、背景噪音高或信号重叠等原因导致错误。

  5. 样本制备问题:样本制备过程中的许多步骤(如DNA提取、PCR扩增、文库制备等)都可能导致错误,如DNA降解、PCR扩增偏差或引入序列错误。

在illumina测序时,计算机会自动计算出每个bp的quality,一起放在fastq文件当中(也就是第三行和第四行)。

fastq文件实在是太大了,而且你不可能一条一条去检查序列的quality,所以需要QC的软件:FASTQC

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/


这里可以看出,通常测序碱基数越多,quality越差。有时如果你测了250bp的,但是因为质量太差,可能只能取前200bp。

note:illumina双端测序通常是150bp


FASTQC的另一个视图中,根据中位数可视化quality


利用碱基分布来可视化的quality。前者其实是质量较好的,因为再后面四种碱基都分布平滑,要注意的是可能需要去除前面的几个碱基。也许是在测序开始的时候出了点问题。


根据GC含量可视化的quality

在我之前处理的转录组的数据。根据QC的结果,使用Trimmomatic软件,可以把rawdata转换成clean data,用于后面的数据分析。

视频链接

哈佛大学生物信息学课:

https://www.bilibili.com/video/BV1yS4y1Z721?spm_id_from=333.788.player.switch&vd_source=495deae41cc91675c82bcb979ebe3326&p=9

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值