从计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴。文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为fasta,通过短序列比对将fastq与fasta合并为bam,通过变异检测将bam中突变位点提取出来转换为vcf。因此,我们可以通过总结每一种生物数据文件格式的处理方法来学习生物信息,这样当拿到固定格式的文件之后,就知道该如何来处理了。
fastq格式文件处理大全(一)
完整性校验
完整性检验主要是为了保证文件在传输过程中保持完整,没有丢失内容,一般采用md5校验方式,目前测序公司给定的测序数据都带有md5文件,这样文件就是用来校验数据完整性的。可以使用md5sum -c命令检测这个文件,如果返回OK,说明文件完整。
md5sum -c SRR8651554_1.fastq.md5
md5sum -c SRR8651554_5.fastq.md5
fastq文件统计
如果想对fastq文件进行统计,例如统计序列条数,碱基总数,reads读长分布等,可以使用seqkit工具进行操作。
$ seqkit stats SRR8651554_1.fastq.gz SRR8651554_2.fastq.gz
file fo