1、startAlign.pl的时间与genome.fasta的contig的数量相关,genome.fasta大小为1G,24个cpu的情况下,如果是2000个contigs大约3个小时,后面gmes_petap.pl的时间大约也是3小时。
相同的基因组大小,如果contigs为10000个,时间大约是40个小时。
如果可能,建议过滤掉太短的contig。seq_tool.py len-filter -i genomic.fna -l 1000 -o genome.over1k.fasta
2、RepeatModeler,如果参考同源蛋白只有序列名,序列内容为空,会在执行过程中停止,并且不会报错,所以一定要检查输入的pep.fasta;
3、genome.fasta中序列名称最好不要有空格,长度不大于50。
否则会在filterGenesIn_mRNAname.pl这一步出错。
less genome.over1k.fasta |perl -e 'while(<>){chomp;if(/\>/){@inf=split /\s+/;print "$inf[0]\n"}else{print $_,"\n";}}' >src_genome.fasta
4、 没有rna数据:
如果只有genome.fasta和homolog.fasta,那么可以用
braker.pl --species=test --genome=genome.fasta --prot_seq=homolog.fasta --prg=gth --trainFromGth
不提供rna数据来做,1个G的基因组,10M的homolog.fasta,对基因组采用6%随机采样,跑了一下测试;
optimizing AUGUSTUS parameters这一步会花费4个小时,optimiz
Braker基因预测流程与时间估算

最低0.47元/天 解锁文章
881

被折叠的 条评论
为什么被折叠?



