字符串匹配——Rabin–Karp algorithm(二)

本文深入探讨了Rabin-Karp算法的优化方法——滚动哈希(Rolling Hash)。通过利用共享子串减少计算,将每个子串哈希值计算复杂度降至O(1),整体提升模式匹配效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

       上一篇https://blog.youkuaiyun.com/To_be_to_thought/article/details/84890018只是介绍了朴素的Rabin–Karp algorithm,这一篇主要说说朴素Rabin–Karp algorithm的优化。

      模式串P长度为L,文本串S长度为n,在S的一轮遍历中找到P的位置,上文提到的hash(P)的复杂度为O(L),对S的每个长度为L的子字符串进行hash函数计算需要O(nL),如果某个子串哈希值与hash(P)相等,则进行该子串与P的一一比对,该步复杂度为O(L),这种朴素的方法总共花费O(nL)的时间。  

        我们注意到这些字串的字符有很多是相互重合的,比如字符串“algorithms”的5字符的子字符串“algor”和“lgori”有四个字母是一样的,如果能利用这个共享子串来减少计算,这就是“rolling hash”的由来。

举个例子:P=“90210”,S=“48902107”

                    

S的5字符的子串包括: ,数字字符集为

子字符串k的哈希函数计算方法:

                   

                  

                   

                  

                 

递推公式(类似于滑动窗口)为:

                 

使用rolling hash将计算每个子串的哈希值复杂度变成O(1),而所有子字符串的哈希值计算也降到了O(n)复杂度。

更一般的:

                          

                          

其中, 表示文本串里的第i+1个长度为L的子字符串, 为文本串中第i个字符(i从0到n-L取值)。

算法代码如下:

class Solution {
    public static int base=256;
    public static int module=101;
    public static boolean match(String str1,String str2)
    {
        assert str1.length()==str2.length();
        for(int i=0;i<str1.length();i++)
        {
            if(str1.charAt(i)!=str2.charAt(i))
                return false;
        }
        return true;
    }
    
    public int strStr(String haystack, String needle) {
        if(needle=="" || needle.length()==0)
            return 0;
        int m=needle.length(),n=haystack.length(),h=1;
        if(n==0 || n<m)
            return -1;
        for(int i=0;i<m-1;i++)
            h=(h*base)%module;
        int p=0,t=0;
        for(int i=0;i<m;i++)
        {
            p=(p*base+needle.charAt(i))%module;
            t=(t*base+haystack.charAt(i))%module;
        }
        for(int i=0;i<n-m+1;i++)
        {
            if(t==p)
            {
                if(match(needle,haystack.substring(i,i+m)))
                    return i;
            }
            if(i<n-m)
            {
                t=( base * (t-haystack.charAt(i) * h) + haystack.charAt(i+m) )%module;
                if(t<0)
                    t=t+module;
            }
        }
        return -1;
    }
}

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值