LeetCode-Py 项目中的字符串匹配算法：Horspool 算法详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00856/article/details/148465287

LeetCode-Py 项目中的字符串匹配算法：Horspool 算法详解

LeetCode-Py ⛽️「算法通关手册」：超详细的「算法与数据结构」基础讲解教程，从零基础开始学习算法知识，800+ 道「LeetCode 题目」详细解析，200 道「大厂面试热门题目」。项目地址: https://gitcode.com/gh_mirrors/le/LeetCode-Py

1. 算法背景与概述

Horspool 算法是字符串匹配领域中的一个重要算法，由 Nigel Horspool 教授在 1980 年提出。该算法是对经典 Boyer-Moore 算法的简化版本，特别适合在实际应用中处理单模式字符串匹配问题。

在 LeetCode-Py 项目中，Horspool 算法作为字符串单模式匹配的重要解决方案被收录，帮助开发者高效解决相关问题。该算法的核心优势在于其预处理阶段和后移策略，能够显著减少不必要的字符比较次数。

2. 算法核心思想

Horspool 算法的核心在于坏字符规则的巧妙运用。当模式串与文本串不匹配时，算法会根据文本串中与模式串末尾对齐的字符来决定模式串向右移动的距离。

2.1 基本匹配策略

算法采用从右向左的匹配顺序，即：

将模式串与文本串对齐
从模式串的最后一个字符开始比较
向模式串首部方向依次比较

这种反向比较的顺序为算法提供了更多信息，使得在不匹配时能够做出更明智的滑动决策。

2.2 坏字符规则

Horspool 算法定义了两种移动情况：

情况一：坏字符存在于模式串中

计算移动距离：模式串长度 - 1 - 该字符在模式串中最后出现的位置
这样可以将模式串中该字符的最后出现位置与文本串中的坏字符对齐

情况二：坏字符不存在于模式串中

直接移动整个模式串长度
这样可以跳过所有不可能匹配的位置

3. 算法实现详解

3.1 预处理阶段：构建坏字符表

坏字符表是 Horspool 算法的关键数据结构，它记录了模式串中每个字符最后一次出现的位置距离模式串末尾的距离。

def generateBadCharTable(p: str):
    m = len(p)
    bc_table = dict()
    
    for i in range(m - 1):  # 注意只迭代到m-2
        bc_table[p[i]] = m - 1 - i
    return bc_table

这个预处理过程的时间复杂度是O(m)，其中m是模式串的长度。

3.2 匹配阶段实现

匹配阶段利用坏字符表进行高效滑动：

def horspool(T: str, p: str) -> int:
    n, m = len(T), len(p)
    bc_table = generateBadCharTable(p)
    
    i = 0
    while i <= n - m:
        j = m - 1
        while j > -1 and T[i + j] == p[j]:
            j -= 1
        if j < 0:
            return i
        i += bc_table.get(T[i + m - 1], m)
    return -1