blast的-max_target_seqs？

原创

于 2023-04-25 10:41:53 发布 · 1.4k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#经验分享

研究表明，BLAST工具的-max_target_seqs参数并不如大多数人理解的那样返回最优匹配的结果，而是返回前N个超过给定E值阈限的hit。这依赖于数据库中序列的顺序，可能导致不同版本数据库或排序方式下返回不同的“最佳hit”。目前没有BLAST参数能直接返回最优匹配，建议通过脚本后处理来筛选。Diamond工具可能提供更优解决方案。

Shah, N., Nute, M.G., Warnow, T., and Pop, M. (2018). Misunderstood parameter of NCBI BLAST impacts the correctness of bioinformatics workflows. Bioinformatics.

杂志Bioinformatics以letter to the editor的形式刊发了来自美国马里兰大学计算机系的Nidhi Shah等人的一篇文章，报道BLAST中-max_target_seqs存在的“bug”(Shah et al., 2018)。
该“bug”就是：-max_target_seqs参数返回的不过是前N个符合给定的E值的hit，而并不一定保证就是E值最低的N个hits。

https://ibook.antpedia.com/x/146750.html
https://www.jianshu.com/p/7eb530bc1a9c

之前大部分人都将这个参数的值设置为1，认为会输出最优匹配的一条，但是作者验证后发现，这是一个错误的用法，它输出的并不是最优匹配的一条结果，而是第一条较好的匹配结果；更糟糕的是，产生的输出取决于序列在数据库中出现的顺序。对于相同的比对任务，使用不同版本的数据库时，即使所有版本都包含相同的最佳匹配结果，但是BLAST却返回不同的结果。而且以不同的方式对数据库进行排序，也会导致在将max_target_seqs参数设置为1时，BLAST返回不同的“top hit”。原文如下：
To enable the efficient processing of large data sets, researchers frequently rely on shortcuts aimed at reducing the number of BLAST results that need to be processed. A common strategy involves using the ‘-max_target_seqs’ parameter of the NCBI BLASTþ suite. According to the BLAST

最低0.47元/天解锁文章