fastq fasta 序列数快速统计

最新推荐文章于 2025-06-09 09:39:00 发布

原创最新推荐文章于 2025-06-09 09:39:00 发布 · 6.7k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#shell #序列数

SHELL 同时被 2 个专栏收录

29 篇文章

订阅专栏

生信

6 篇文章

订阅专栏

fasta序列条数统计

统计大于号开始的行数或seqkit 工具

# 通过搜索>的数量
grep -c '^>' myFasta.fasta

#seqkit统计提取，速度也是很快的
seqkit stats t.fa -T | grep -v file | cut -f 4

# 统计 1-100bp 范围长的序列数
cat t.fa | seqkit seq -m 1 -M 100 | seqkit stat -T | grep -v file | cut -f 4

fastq序列条数统计

压缩格式解压，统计行数除以4

# 通常以fastq.gz格式压缩
zcat  input.fastq.gz | awk 'NR%4==2{c++} END{print c}'

# 推荐下面的方法 pigz 会比gzip快10倍
pigz -dc input.fastq.gz | awk 'NR%4==2{c++} END{print c}'

# 如果不是压缩格式
cat input.fastq | awk 'NR%4==2{c++} END{print c}'