python：批量汇总统计fastq文件序列数、碱基数、GC%、MaxLength、MinLength

最新推荐文章于 2023-12-19 13:12:00 发布

原创

最新推荐文章于 2023-12-19 13:12:00 发布 · 3.2k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#python #算法 #大数据 #hadoop #mysql

使用Python脚本批量统计多个Fastq文件的序列数、碱基数、GC%、MaxLength和MinLength，并进行排序及网页格式化。脚本处理多个测序数据，通过正则表达式提取文件名和后缀，生成统计报告。

python：文件查询，统计fastq序列数、碱基数、GC%、MaxLength、MinLength

前面写了类似的上篇，用来处理一个样品的测序数据。这篇可以处理多个测序数据。

一、输入数据
tree rawdata
rawdata
├── CON1_R1.fastq
├── CON1_R2.fastq
├── CON2_R1.fastq
├── CON2_R2.fastq
├── CON3_R1.fastq
├── CON3_R2.fastq
├── TREAT1_R1.fastq
├── TREAT1_R2.fastq
├── TREAT2_R1.fastq
├── TREAT2_R2.fastq
├── TREAT3_R1.fastq
└── TREAT3_R2.fastq
或者

tree Clean_data/
Clean_data/
├── CON1_1.fastq
├── CON1_2.fastq
├── CON2_1.fastq
├── CON2_2.fastq
├── CON3_1.fastq
├── CON3_2.fastq
├── TREAT1_1.fastq
├── TREAT1_2.fastq
├── TREAT2_1.fastq
├── TREAT2_2.fastq
├── TREAT3_1.fastq
└── TREAT3_2.fastq
二、python3实现
2.1 思路：
1 写序列统计函数
2 读取文件名，split，获取样品名
3 re.findall确定后缀【列表排序后取后缀，保证分别是R1，R2】
4 函数处理文件
5 格式化输出