SeqFu
SeqFu用于处理和解析来自FASTA / FASTQ文件的信息,支持压缩的输入文件。包括用于交错和解交错FASTQ文件,重命名序列以及计算和打印序列长度统计信息的功能。
SegFu相关使用方法来啦!!!
一、软件安装:
conda install -c conda-forge -c bioconda seqfu
二、软件使用:
1.seqfu interleave
两个双端文件生成一个交错的fastq文件
seqfu ilv -1 file_R1.fq > interleaved.fq #默认情况下读取_R1,会自动读取_R2
2.seqfu deinterleave
交错文件生成两个单独的fastq文件
seqfu dei -o newfile interleaved.fq #输出文件为newfile_R1.fq和newfile_R2.fq
3.seqfu count
用于对 FASTA/FASTQ 文件中的序列进行计数,并且识别单、双端序列。
seqfu count interleaved.fq file1_R1.fq file1_R2.fq -t 4 #-t:多线程
注意:支持多文件输入,但双端序列需要成对。
输出结果:
file1_R1.fq 52921 Paired
interleaved.fq 105842 SE
输出文本:样本名称、读数和类型(“SE”表示单端,“Paired”表示双端)
4.seqfu stats
统计序列总数、碱基数、平均值、N50、N75、N90 和 AuN
seqfu stats file.fq -n #-n:屏幕友好输出
5.seqfu head
打印序列文件的前多少序列
seqfu head file1_R1.fq -n 5 #打印file1_R1.fq文件前5个序列,默认10
6.seqfu grep
1)按名称获取序列
seqfu grep -n Here file.fasta #提取名称中包含 “Here”
2)DNA 序列中的匹配模式
seqfu grep -o TTTT file.fasta #匹配序列TTTT
7.seqfu derep
FASTA和FASTQ文件的去重复
seqfu derep file.fasta
8.seqfu sort
seqfu sort file.fasta #按序列大小排序
9.seqfu rc
1)打印序列的反向互补序列
seqfu rc CCTACGGGNGGCWGCAG GGACTACHVGGGTATCTAATCC #也可以输入文件
输出:
>string_1
CTGCWGCCNCCCGTAGG
>string_2
GGATTAGATACCCBDGTAGTCC
10.seqfu qual
检测 FASTQ 文件的质量,返回可能的编码方式
seqfu qual data/primers/*
输出:
data/primers/16S_R1.fq.gz 7.0 38.0 Sanger;Illumina-1.8; 33.42+/-8.47 249
data/primers/16S_R2.fq.gz 2.0 38.0 Sanger;Illumina-1.8; 31.96+/-9.53 205
data/primers/16Snano_R1.fq.gz 7.0 38.0 Sanger;Illumina-1.8; 33.37+/-8.63 246
data/primers/16Snano_R2.fq.gz 2.0 38.0 Sanger;Illumina-1.8; 32.05+/-9.54 220
data/primers/art_R1.fq.gz 40.0 40.0 Illumina-1.3;Sanger;Illumina-1.5;Solexa;Illumina-1.8; 40.00+/-0.00 95
data/primers/art_R2.fq.gz 40.0 40.0 Illumina-1.3;Sanger;Illumina-1.5;Solexa;Illumina-1.8; 40.00+/-0.00 93
输出文件每一列的含义:
1)文档名称
2)最低质量值
3)最大质量值
4)可能的编码(分号分隔列表)
5)均值,质量值的 StDev
6)最后一个合格位置
7)GC 内容(5 个小数位)如果通过启用 --gc
11.seqfu cat
可以读取混合的 FASTA 和 FASTQ 文件,默认情况下程序将产生混合输出。使用–fasta或–fastq将强制使用特定的输出格式
seqfu cat file.fq # 可以输入一个或多个fa/fq
END
图图云平台-永久免费绘图工具
https://www.cloudtutu.com/
SeqFu是一个用于处理和解析FASTA/FASTQ文件的工具,支持压缩输入。它提供了交错/解交错FASTQ文件、重命名序列、计数序列、统计信息等功能。包括seqfu interleave、seqfu deinterleave、seqfu count等命令,适用于序列文件的操作和分析。
4777

被折叠的 条评论
为什么被折叠?



