ERROR record:
下载了所有细菌fna后,整合成一整个fna文件,大小99G.
samtools faidx library.fna
error:[E::fai_build_core] Different line length in sequence 'kraken:taxid|436|NZ_CP062147.1'
Did you take a look at that sequence in question? It may be just a
case of a broken fasta record.
The error looks pretty clear - Your sequences may be of unequal length in different lines. Why an indexer does not auto-normalize (or at least provide an option for it),
picard NormalizeFasta --INPUT 1.fa --OUTPUT normalized.fa得到的结果依然无法够建索引
seqkit seq -w 70 s.fa > s2.fa只是把fa的序列行的每一行碱基数目调整,对错误序列部分无改正效果
error sequence 所在 row 250946642
总row 1497262490
查看 250946642 后50000行 找到错误行
sed -n '250946642,250996642'p normalized_library.fa > index.error.50000
kraken:taxid|436|NZ_CP062147.1’的末尾出现了新的seq
44099 CTCCGCCCCATCCGGCCCCGCCACACGGAGCTGCCCCGCCGCGTCCCAGCCCAGCCAGCGATGCC>krak
44100 en:taxid|1513|NZ_CP035785.1 Clostridium tetani strain Harvard 49205 ch
44101 romosomeNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
44102 NNNNNNNNNNNNNNNNNNNNNCAACAACGTATTTCATTTTAACACATTTAAATTTACCTATTGAGTATTA
grep '[A-Z]>' normalized_library.fa找出有多少行fa出了错
CTCCGCCCCATCCGGCCCCGCCACACGGAGCTGCCCCGCCGCGTCCCAGCCCAGCCAGCGATGCC>krak
TTATGTGGGATTAAACTTGAAATTTCATT>kraken:taxid|290847|NC_017382.1 Helicoba
查看真正错误所在行:grep -n 'CC>krak' normalized_library.fa
250990740:CTCCGCCCCATCCGGCCCCGCCACACGGAGCTGCCCCGCCGCGTCCCAGCCCAGCCAGCGATGCC>kra
659005136:TTATGTGGGATTAAACTTGAAATTTCATT>kraken:taxid|290847|NC_017382.1 Helicoba
先删除那部分试试
sed ‘row1d;row2d’ .fa > .fa

博客讨论了在整合多个细菌fna文件为一个大型fasta文件后,遇到samtools faidx建立索引时出现不同行长度错误的问题。作者通过检查和定位错误序列,尝试使用picard和seqkit工具进行修复,但未成功。最终,找到了错误所在的行并提出了删除错误行的解决方案。

被折叠的 条评论
为什么被折叠?



