35、BM算法及其变体的推导

BM算法及其变体的推导与应用

BM算法及其变体的推导

1. BM算法简介

Boyer-Moore(BM)算法是一种高效的字符串匹配算法,特别适用于从右到左的字符串匹配任务。与Knuth-Morris-Pratt(KMP)算法从左到右逐字符比较不同,BM算法通过跳过不可能匹配的部分来加速匹配过程。这种特性使得BM算法在处理大规模文本时表现出色。本文将详细介绍BM算法的工作原理,并通过逻辑程序转换技术推导出其变体。

2. BM算法的工作原理

BM算法的核心思想在于利用坏字符规则和好后缀规则来跳过不可能匹配的部分。以下是BM算法的两个主要规则:

2.1 坏字符规则

坏字符规则是指当遇到不匹配的字符时,根据该字符在模式串中的位置,移动模式串,使其尽量对齐到下一个可能匹配的位置。具体步骤如下:

  1. 从右向左扫描模式串和文本串。
  2. 当遇到不匹配的字符时,查找该字符在模式串中的最后一次出现位置。
  3. 根据该位置调整模式串的位置,跳过不可能匹配的部分。

2.2 好后缀规则

好后缀规则是指当遇到不匹配的字符时,根据模式串中已匹配的后缀,移动模式串,使其尽量对齐到下一个可能匹配的位置。具体步骤如下:

  1. 从右向左扫描模式串和文本串。
  2. 当遇到不匹配的字符时,查找模式串中已匹配的后缀。
  3. 根据该后缀调整模式串的位置,跳过不可能匹配的部分。

3. BM算法的推导

为了更好地理解BM算法及其变体的推导过程,我们需要借助逻辑程序转换

BMBoyer - Moore算法是一种高效的字符串匹配算法,其中SS(Suffix Shift)是其重要组成部分。 #### 基本概念 在BM算法里,SS基于后缀匹配的思想。设文本串为 $T$,模式串为 $P$,长度分别为 $n$ 和 $m$。当模式串和文本串在某一位置开始匹配时,从模式串的末尾往前匹配。若出现不匹配,就需要根据后缀信息来确定模式串向右移动的距离。 #### 推导过程 设模式串 $P = p_0p_1\cdots p_{m - 1}$,假设在匹配过程中,从模式串的末尾 $p_{m - 1}$ 开始往前匹配,到位置 $i$ 时出现不匹配,即 $P[i]\neq T[k + i]$,其中 $k$ 是当前文本串的起始匹配位置。 定义 $s$ 为模式串需要向右移动的距离。为了找到合适的 $s$,需要考虑模式串中后缀的匹配情况。 设 $P[j\cdots m - 1]$ 是模式串中与 $P[i\cdots m - 1]$ 相同的最长后缀,也就是 $P[j\cdots m - 1]=P[i\cdots m - 1]$ 且 $j < i$。此时,模式串可以向右移动 $i - j$ 的距离,使得这两个相同的后缀对齐。 更正式地,对于模式串 $P$ 中的每个位置 $i$,定义 $ss[i]$ 为:当在位置 $i$ 出现不匹配时,模式串需要向右移动的最小距离。 计算 $ss[i]$ 的步骤如下: 1. 首先,从模式串的末尾开始,对于每个可能的后缀 $P[i\cdots m - 1]$,在模式串的前面部分寻找与之匹配的最长后缀。 2. 设 $j$ 是满足 $P[j\cdots m - 1]=P[i\cdots m - 1]$ 且 $j < i$ 的最大位置。则 $ss[i]=i - j$。 3. 如果不存在这样的 $j$,则需要考虑模式串的前缀是否与后缀匹配。即寻找最大的 $k$,使得 $P[0\cdots k]=P[m - k - 1\cdots m - 1]$ 且 $m - k - 1\leq i$。此时 $ss[i]=m - k - 1$。 以下是计算 $ss$ 数组的Python代码示例: ```python def compute_ss(pattern): m = len(pattern) ss = [0] * m for i in range(m - 1, -1, -1): j = i - 1 while j >= 0: if pattern[j:m] == pattern[i:m]: ss[i] = i - j break j -= 1 if ss[i] == 0: # 考虑前缀匹配后缀的情况 k = 0 while k < m and pattern[:k + 1] == pattern[m - k - 1:]: if m - k - 1 <= i: ss[i] = m - k - 1 k += 1 return ss pattern = "abcabc" ss = compute_ss(pattern) print(ss) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值