测序技术简介
第一代测序技术,即Sanger测序,通过在四条不同的车道上进行反应,最终确定DNA序列。
目前主流的第二代测序技术,即lllumina的测序技术,通过在玻璃片上进行大规模平行测序
,实现快速、高效的DNA测序。
第三代测序技术,虽然目前还处于原型阶段,但具有单分子测序的潜力。字幕中还提到,第三代测序也许更好,但在需要精确计数的情况下,第二代测序更为合适
Fastq 和 FASTQC
计算生物学家如何处理测序机产生的原始数据。首先,他们需要了解序列数据,特别是来自lllumina测序机的****fastq文件。
该文件包含四行信息:
-
第一行是Sequence ID,
-
第二行是Sequence,
-
第三行是Quality ID。
-
第四行是Quality score:由33个ASCII码字符表示,可以根据质量,来决定不使用那些序列
为什么要进行指控(Quality Control,QC)
尽管Illumina测序平台具有很高的准确性和可靠性,但在测序过程中仍然可能出现错误,原因多种多样,以下是一些可能导致错误的原因:
-
化学合成错误:在测序过程中,荧光标记的核苷酸被添加到正在合成的DNA链上。这个过程可能会发生错误,导致错误的核苷酸被添加。
-
光学检测错误:测序仪通过检测荧光信号来确定每个循环添加的核苷酸类型。光学系统可能因为多种原因(如镜头污染、激光功率不稳定、探测器灵敏度不均一等)产生误差。
-
簇扩增偏差:在测序前,DNA片段被扩增成簇。如果扩增不均匀,某些簇可能会过度代表,导致测序结果偏差。
-
序列读取错误:在读取序列时,可能会因为荧光信号弱、背景噪音高或信号重叠等原因导致错误。
-
样本制备问题:样本制备过程中的许多步骤(如DNA提取、PCR扩增、文库制备等)都可能导致错误,如DNA降解、PCR扩增偏差或引入序列错误。
在illumina测序时,计算机会自动计算出每个bp的quality,一起放在fastq文件当中(也就是第三行和第四行)。
fastq文件实在是太大了,而且你不可能一条一条去检查序列的quality,所以需要QC的软件:FASTQC
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
这里可以看出,通常测序碱基数越多,quality越差。有时如果你测了250bp的,但是因为质量太差,可能只能取前200bp。
note:illumina双端测序通常是150bp
FASTQC的另一个视图中,根据中位数可视化quality
利用碱基分布来可视化的quality。前者其实是质量较好的,因为再后面四种碱基都分布平滑,要注意的是可能需要去除前面的几个碱基。也许是在测序开始的时候出了点问题。
根据GC含量可视化的quality
在我之前处理的转录组的数据。根据QC的结果,使用Trimmomatic软件,可以把rawdata转换成clean data,用于后面的数据分析。
视频链接
哈佛大学生物信息学课: