最近使用hmmer时使用到了prodigal,这个工具主要是用来预测原核生物中所有的ORF的,只要将要预测的基因组传入软件即可,不论是单个物种的基因组,还是宏基因组都可以,而且软件计算速度很快,有需要的时候可以用一下呀!
下载以及安装
prodigal可以直接在github上下载发布版本,分别有windows、linux或者os系统的,在linux上下载后解压,再make一下即可(因为我使用make install报错了,但照样能使用)。github链接为https://github.com/hyattpd/Prodigal/releases/tag/v2.6.3。
基本使用方式
prodigal的使用方式十分简单,只需要prodigal一个命令即可,简要介绍一下其包含的参数:
项目 | Value |
---|---|
-i | 输入文件 |
-a | 表示将预测到的ORF全部翻译为氨基酸序列后记录到-a后跟的文件名中 |
-g | 选取翻译用的密码子表 |
-c | 表示不允许找到的ORF是不具有起始密码或终止密码的(默认是允许的) |
-d | 后面跟找到的所有ORF的核酸序列 |
-o | 指定输出文件 |
-f | 选取输出格式,默认为gbk格式,还可以选gff,sco等 |
-h | 帮助 |
-m | 不寻找包含N的序列 |
-p | 选择输入单个基因组还是宏基因组(默认为单个) |
-q | 不打印过程 |
-s | 将所有潜在的序列都记录下来在-s跟的文件中 |
-t | 生成training文件,以便后续类似的预测 |
-v | 打印出prodigal的版本 |
-n | Bypass Shine-Dalgarno trainer and force a full motif scan(这个不是很懂,和使用到的基序相关) |
其中比较常用的应该就是-a、-o、-d、-s这几个参数。
三种使用模式
normal mode
默认使用的模式,根据输入的基因组,从基因组中分析、学习等,再根据得到的特性来预测所有的ORF。
anonymous mode
匿名模式,使用prodigal自带的已经预先计算好的模式来预测ORF
training mode
初次使用时同normal mode,但是使用后可以得到一个训练后得到的文件,下一次预测ORF时可以使用这个文件作为一种模式来预测
输出文件
输出文件中包含的内容主要和找到的序列相关,包含有一个自动生成的ID、其起始密码子的类型,终止密码子的类型,是否同时找到起始和终止密码,以及起始密码和终止密码的位置,gc比值,得分等。如下例(预测的ORF被翻译成蛋白质序列):
这些信息都比较一目了然,我也就不多介绍了。