伯勒斯 - 惠勒索引与基因组规模算法
伯勒斯 - 惠勒变换相关理论
伯勒斯 - 惠勒变换(Burrows–Wheeler transform)最初由Burrows和Wheeler在1994年作为文本压缩工具引入。该变换的构建与后缀数组相关,但直到2000年和2005年,Ferragina和Manzini才发现了能在压缩空间中进行反向搜索的紧密联系,在文献中,BWT索引常被称为FM - 索引。
同时,也有其他压缩后缀数组的方法被开发出来,如Grossi和Vitter在2000年、2006年,以及Sadakane在2000年的工作,他们基于函数LF的逆函数ψ进行研究。而简洁后缀数组的描述则遵循Navarro和Mäkinen在2007年的研究。
关于Burrows - Wheeler变换的空间高效构建,在某些算法中,原始方法可在$O(n log log σ)$时间内,使用$O(n log σ)$位空间构建该变换。不过,一些版本由于使用小波树,会花费更多时间,而原始方法应用更高级的结构来实现rank操作。通过利用仅用一个BWT模拟双向BWT索引(Belazzougui 2014),算法的合并步骤可进一步改进,能以$O(n)$时间和$O(n log σ)$位实现最优构建,且原始结果的随机化已在文章的完整版本中改进为确定性方法。
双向BWT索引最初来自Schnattinger等人在2010年的研究,类似结构也在Li等人于2009年的工作中被提出。仅使用一个BWT的变体与Beller等人在2012年和2013年的研究类似,并在Belazzougui 2014年的研究中有所描述。该变体与原始双向BWT索引的不同之处在于,它使用一个占用$o(n)$位的栈,而非原始工作中使用的占
超级会员免费看
订阅专栏 解锁全文
52

被折叠的 条评论
为什么被折叠?



