致病性因子的基因组分析:从E值调整到数据可视化与分析
1. 玩转E值
在进行基因组分析时,影响分析结果的一个关键设置是对相等蛋白质的定义。BLAST比对结果的判定基于BLAST E值,如果两个蛋白质被认为不相等,则不会找到BLAST匹配结果。在之前的示例中,我们将E值设置为0.00001。序列比对的E值越低,比对的序列相似度就越高。在blastp中,我们设置的期望阈值(E值)越低,在大肠杆菌O157:H7中找到与给定大肠杆菌K12序列匹配的结果就越少。
为了验证这一假设,我们需要使用不同的参数多次执行blastp。可以使用如下的shell脚本(autoblast.sh)来简化这一过程:
#!/bin/bash
# save as autoblast.sh
# changes E-value
for i in 1 0.1 0.001 0.0001 0.00001
do
./ncbi-blast-2.2.25+/bin/blastp -db ecolik12 -query ecoli-h7.faa \
-out h7vsk12-$i.txt -evalue $i
done
在执行脚本前,不要忘记使用 chmod 命令使文件可执行:
$ chmod u+x autoblast.sh
$ time ./autoblast.sh
执行脚本大约15分钟后(具体时间取决于计算机系统),我们会得到五个不同E值的结果文件。结果显示,E值越高,结果文件中的行数就
超级会员免费看
订阅专栏 解锁全文
7万+

被折叠的 条评论
为什么被折叠?



