NGS数据输出一般为fastq格式,包含序列的质量等信息,有时候我们只想提取fasta序列文件,可以通过多种NGS序列处理软件。此外,可以使用一行代码快速提取。
可以通过两种方式,第一种用sed,第二种用awd,个人觉得第1种sed 命令比较精妙,分享供大家参考:
复习一下典型的fastq文件格式
$ cat test.fq
@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,
使用sed命令
读文献时看到这个命令sed '/^@/!d;s//>/;N'
,顿时感到太精妙了,忍不住分享一下:
$ sed