避免词的最优计算
1. 术语和技术背景
- 基本定义和符号
- 设 $x = x[0]x[1] \cdots x[n - 1]$ 是长度为 $n = |x|$ 的单词,其字母表 $\Sigma$ 是固定大小的有限有序字母表,即 $\sigma = |\Sigma| = O(1)$。对于整数字母表,每个字母用其排名替换,得到的字符串由 ${1, \cdots, n}$ 范围内的整数组成。
- 对于 $x$ 上的两个位置 $i$ 和 $j$,$x[i \cdots j] = x[i] \cdots x[j]$ 表示 $x$ 从位置 $i$ 开始到位置 $j$ 结束的因子(子词),若 $j < i$ 则为空。$\varepsilon$ 表示空词,长度为 0。
- 前缀是从位置 0 开始的因子($x[0 \cdots j]$),后缀是在位置 $n - 1$ 结束的因子($x[i \cdots n - 1]$),非 $x$ 本身的因子是真因子,既不是前缀也不是后缀的因子称为内因子。
- 设 $w = w[0]w[1] \cdots w[m - 1]$ 是单词,$0 < m \leq n$。若 $w$ 是 $x$ 的因子,则称 $w$ 在 $x$ 中出现,每个出现可由 $x$ 中的起始位置表征。$f(w)$ 表示 $w$ 在 $x$ 中的观察频率(出现次数),若 $f(w) = 0$ 则 $w$ 为缺失词,否则为出现词。
- 用 $f(w_p)$、$f(w_s)$ 和 $f(w_i)$ 分别表示 $w$ 在 $x$ 中最长真前缀 $w_p$、后缀 $w_s$
超级会员免费看
订阅专栏 解锁全文
15万+

被折叠的 条评论
为什么被折叠?



