避免词的最优计算与参考锚定基因块问题研究
在生物信息学领域,避免词的计算以及基因块的发现是重要的研究方向。下面我们将详细探讨避免词的最优计算方法以及参考锚定基因块问题。
避免词的最优计算
避免词的计算在生物信息学中有着潜在的应用价值,尽管其生物学动机还有待进一步明确。
算法改进
我们可以对 AvoidedWords 算法进行修改,使其能够在 $O(\sigma n)$ 时间内计算给定长度为 $n$ 的单词 $x$(字母表大小为 $\sigma$ 的整数字母表)中所有的 $\rho$ - 避免词(所有长度),并且该算法是时间最优的。
具体来说,移除 AbsentAvoidedWords 算法第 2 行中对每个最小缺失词长度的条件限制,就可以在 $O(\sigma n)$ 时间内计算所有缺失的 $\rho$ - 避免词。对于计算 $x$ 中所有出现的 $\rho$ - 避免词,根据引理 2,只需研究显式节点的子节点即可。我们可以遍历后缀树 $T(x)$,对于每个显式内部节点,检查其所有子节点(显式或隐式)的路径标签是否为 $\rho$ - 避免词,这可以在 $O(1)$ 时间内完成。这些子节点的总数最多为 $2n - 1$,因为这是 $T(x)$ 的边数的上限。
以下是相关的引理和定理:
- 引理 6 :当 $2 \leq \sigma \leq n$ 时,长度为 $n$ 的单词在大小为 $\sigma$ 的字母表上的最小缺失词数量的上界 $O(\sigma n)$ 是紧的。
- 引理 7 :当 $2 \leq \sigma \leq n$ 时,
超级会员免费看
订阅专栏 解锁全文
3650

被折叠的 条评论
为什么被折叠?



