Shah, N., Nute, M.G., Warnow, T., and Pop, M. (2018). Misunderstood parameter of NCBI BLAST impacts the correctness of bioinformatics workflows. Bioinformatics.
杂志Bioinformatics以letter to the editor的形式刊发了来自美国马里兰大学计算机系的Nidhi Shah等人的一篇文章,报道BLAST中-max_target_seqs存在的“bug”(Shah et al., 2018)。
该“bug”就是:-max_target_seqs参数返回的不过是前N个符合给定的E值的hit,而并不一定保证就是E值最低的N个hits。
https://ibook.antpedia.com/x/146750.html
https://www.jianshu.com/p/7eb530bc1a9c
之前大部分人都将这个参数的值设置为1,认为会输出最优匹配的一条,但是作者验证后发现,这是一个错误的用法,它输出的并不是最优匹配的一条结果,而是第一条较好的匹配结果;更糟糕的是,产生的输出取决于序列在数据库中出现的顺序。对于相同的比对任务,使用不同版本的数据库时,即使所有版本都包含相同的最佳匹配结果,但是BLAST却返回不同的结果。而且以不同的方式对数据库进行排序,也会导致在将max_target_seqs参数设置为1时,BLAST返回不同的“top hit”。原文如下:
To enable the efficient processing of large data sets, researchers frequently rely on shortcuts aimed at reducing the number of BLAST results that need to be processed. A common strategy involves using the ‘-max_target_seqs’ parameter of the NCBI BLASTþ suite. According to the BLAST

研究表明,BLAST工具的-max_target_seqs参数并不如大多数人理解的那样返回最优匹配的结果,而是返回前N个超过给定E值阈限的hit。这依赖于数据库中序列的顺序,可能导致不同版本数据库或排序方式下返回不同的“最佳hit”。目前没有BLAST参数能直接返回最优匹配,建议通过脚本后处理来筛选。Diamond工具可能提供更优解决方案。
最低0.47元/天 解锁文章
4332

被折叠的 条评论
为什么被折叠?



