3、通用实用的模式匹配方法

通用实用的模式匹配方法

1. 块上的字符串匹配

在处理文本时,有时文本会以原子字符串(这里称为“块”)的序列形式呈现,而非字符序列。下面介绍一种通用的字符串匹配技术,它是后续介绍的所有基于Ziv - Lempel压缩文本搜索算法的基础。

假设块要么仅包含一个字母(可直接访问),要么由之前出现过的块拼接而成。这里采用一种在线算法,逐块处理文本。在搜索的任何时刻,用 (T’) 表示已处理的文本(长度为 (|T’|) 个字符)。搜索结束时,(T’ = T),即原始文本。

具体方法如下:逐块处理文本。对于每个新块 (B),计算其描述 (D(B)=(L, O, S, P, M)),各部分含义如下:
- (L = |B|),即块 (B) 的字符长度。
- (O = Offs(B)),表示块 (B) 出现时已处理文本的字符长度。
- (S = Suff(B)),是所有模式位置的集合,这些位置要么是模式中块 (B) 完整出现的起始位置,要么是与块 (B) 前缀匹配的模式后缀的起始位置。形式上,(Suff(B) = {|x|, P = xBy} \cup {|x|, |x| > 0 \land |z| > 0 \land P = xz \land B = zy})。
- (P = Pref(B)),是所有模式位置的集合,这些位置要么是模式中块 (B) 完整出现后的位置,要么是与块 (B) 后缀匹配的模式前缀后的位置。形式上,(Pref(B) = {|xB|, P = xBy \land |y| > 0} \cup {|z|, |z| > 0 \land |y| > 0 \land P = zy \land B = x})。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值