朴素字符串匹配与Karbin-Karp算法

最新推荐文章于 2024-06-23 21:17:44 发布

原创最新推荐文章于 2024-06-23 21:17:44 发布 · 626 阅读

0 ·

CC 4.0 BY-SA版权

ACM算法之字符串匹配专栏收录该内容

5 篇文章

订阅专栏

本文介绍了两种字符串匹配方法：朴素字符串匹配方法与Rabin-Karp算法。朴素方法通过逐字符比较来寻找模式串在文本中的位置，时间复杂度为O(nm)。Rabin-Karp算法利用哈希函数减少不必要的比较，预处理时间为O(m)，平均运行时间为O(n)。

字符串的精度匹配就是在文本T中找出模式P的精确副本，并求出匹配的位置下标。即如果P[0...m-1]==T[k...k+m-1] ,则称P与T的子序列匹配成功。我们要找出所有匹配成功的k。

朴素字符串匹配方法很简单。从文本T的第一个字母和模式P的第一个字母开始比较。如果不匹配，就从T的第二个字母开始匹配，依次类推，不保留所有有用得信息。设P和T的长度分别为m和n .这种算法有两层循环，没有预处理时间，算法时间复杂度为O(nm)。

void Naive_String_Match(string T, string P){
	int n,m,pos,i;
	n = T.size();
	m = P.size();
	pos = i = ans=0;
	while (pos <=n - m){
		i = 0;
		while (i < m&&P[i] == T[pos + i])
			i++;
		if (i == m)    //循环跳出时当 i==m就表示匹配成功
			postion[ans++] = pos;
		pos++;
	}
}

其中postion[]数组保存了匹配成功的 k 值。

另外一种改进的办法叫做Rabin-Karp算法。这个算法在实际应用中可以较好的运行。Rabin-karp算法预处理时间是O(m) .平均运行时间是O(n)（m<=n）,在最坏情况下运行时间为O(mn) .首先在初等数论中有以下结论：

设 a,b,q为3个正整数，则有：

1）(a+b) mod q= (a%q+b%q)%q

2）a×b mod q =(a mod q)×(b mod q) mod q

设组成T和P的字符组成的集合是 A，例如A={'a','b'...'z'} .则A中字符的个数记为 |A| .算法的核心思想是将模式p通过一个hash函数映射为一个整数值 ,也将于p匹配的那部分T[pos...pos+m-1]映射为一个整数值,如果hash[p]！=hash[T]则他们一定不匹配，但是如果hash[T]==hash[p]则不一定匹配，这时候需要一个一个字母的比较。至于计算hash[p]，我们可以通过霍纳法则来求，时间为O(m).

而对于hash[T]的值,我们需要开始计算出T[0...m-1]的值H(0)，在计算H(t)时不需要重新计算，可以通过H(t-1)获得：

H(t)=((H(t-1)-T[pos])*|A|^m)*|A|+T[pos+m] ）mod Prime;

这个式子使用的|A|进制,同时需要一个素数作为模运算。在一开始就可以把中间|A|^m计算出来，于是可以不用每次都计算|A|^m.具体代码如下，选择的是A={'a','b'...'z'},即26进制：

#include<iostream>
#include<string>
using namespace std;
#define p 82595483
void Match(string W, string T);
int postion[1001];
int ans;
int main(){
	int i;
	string W, T;
	cin >> W >> T;
	Match(W, T);
	for (i = 0; i < ans; i++)
		cout << postion[i] << endl;
	return 0;
}
void Match(string W, string T){
	int pos, n, m, i, t,h,d;
	n = T.size();
	m = W.size();
	h=t =pos=ans=0;
	d = 1;
	for (i = 0; i < m; i++){
		t = (t * 26 + W[i] - 'a') % p;      
		h = (h * 26 + T[i] - 'a') % p;
		d = (d * 26) % p;
	}
	while (pos <=n-m){
		if (h == t){
			i = 0; 
			while (i < m&&W[i] == T[i + pos])
				i++;
			if (i == m)
				postion[ans++]=pos;
		}
	    h = (26 * h - (T[pos] - 'a')*d + (T[pos + m]-'a')) % p;
		pos++;
	}
}