通用实用的模式匹配方法
1. 块上的字符串匹配
在处理文本时,有时文本会以原子字符串(这里称为“块”)的序列形式呈现,而非字符序列。下面介绍一种通用的字符串匹配技术,它是后续介绍的所有基于Ziv - Lempel压缩文本搜索算法的基础。
假设块要么仅包含一个字母(可直接访问),要么由之前出现过的块拼接而成。这里采用一种在线算法,逐块处理文本。在搜索的任何时刻,用 (T’) 表示已处理的文本(长度为 (|T’|) 个字符)。搜索结束时,(T’ = T),即原始文本。
具体方法如下:逐块处理文本。对于每个新块 (B),计算其描述 (D(B)=(L, O, S, P, M)),各部分含义如下:
- (L = |B|),即块 (B) 的字符长度。
- (O = Offs(B)),表示块 (B) 出现时已处理文本的字符长度。
- (S = Suff(B)),是所有模式位置的集合,这些位置要么是模式中块 (B) 完整出现的起始位置,要么是与块 (B) 前缀匹配的模式后缀的起始位置。形式上,(Suff(B) = {|x|, P = xBy} \cup {|x|, |x| > 0 \land |z| > 0 \land P = xz \land B = zy})。
- (P = Pref(B)),是所有模式位置的集合,这些位置要么是模式中块 (B) 完整出现后的位置,要么是与块 (B) 后缀匹配的模式前缀后的位置。形式上,(Pref(B) = {|xB|, P = xBy \land |y| > 0} \cup {|z|, |z| > 0 \land |y| > 0 \land P = zy \land B = x})。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



