一.BF算法
1.介绍:BF算法,即暴力(Brute Force)算法,是一种普通的模式匹配算法。
2.特点:主串的i和子串的j都会回退
3.算法思路:利用两次for循环,当主串和子串不匹配时,主串的i回到此次循环开始时的下一个位置,子串回到最开始,开始新的一轮循环验证
4.代码实现:
int BF(string str, string sub)
{
int lenstr = str.size();
int lensub = sub.size();
if (lenstr == 0 || lensub == 0) return -1;
for (int i = 0; i < lenstr; i++)
{
int tmp = i;
int flag = 0;
for (int j = 0; j < lensub; j++)
{
if (str[tmp] == sub[j])
{
tmp++;
}
else
{
flag = 1;
break;
}
}
if (flag == 0) return i;
}
return -1;
}
二.KMP算法
1.介绍:KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出的,因此人们称它为克努特—莫里斯—普拉特操作(简称KMP算法)。
2.核心:利用匹配失败后的信息尽量减少主串的匹配次数,从而达到快速匹配的目的
3.特点:主串的i不会回退,子串的j也不是每次都回退到0号位置
4.算法思路
(1)借助next数组保存子串的某个位置匹配失败后应该回退到的位置信息
(2)遍历子串和主串,若是两者在该位置匹配成功,则继续向下继续匹配;若是不成功,则让j回退,即令j=next[j]。
(3)next数组的创建
<1>next[j]的求解规则:找到匹配成功部分的两个相等的真子串(不包含自身),即一个以0下标字符开始,另一个以j-1下标字符结尾
注:规定next[0]=-1,next[1]=0;
<2>求next[j+1]:假设next[j]==k
1>若i和k对应的字符相等,即sub[i]==sub[k],此时next[j+1]=k+1;
证明:由于next[j]==k,所以可知:sub[0]...sub[k-1]=sub[x]...sub[i-1],可得x=i-k;
又因为sub[i]==sub[k],故sub[0]...sub[k]=sub[i-k]...sub[i],即next[i+1]=k+1;
2>若i和k对应的字符不相等,即sub[i]!=sub[k],此时让k回退直至出现sub[i]==sub[k]的情况,即令k=next[k]
5.代码实现
#include<iostream>
#include<vector>
#include<string>
#include<assert.h>
using namespace std;
void GetNext(string sub, vector<int>& next)
{
int lensub = sub.size();
next[0] = -1;
next[1] = 0;
int i = 2;//当前位置的下标
int k = 0;//前一个位置对应在next数组中的值
while (i < lensub)
{
if (k==-1 || sub[i - 1] == sub[k])
{
next[i] = k + 1;
i++;
k++;
}
else
{
//如果sub[i-1]!=sub[k],就回退k,直到sub[i-1]==sub[k]
k = next[k];
}
}
}
//str:主串,sub:子串,pos:主串中的位置
int KMP(string str, string sub, int pos)
{
int lenstr = str.size();
int lensub = sub.size();
if (lenstr == 0 || lensub == 0) return -1;
if (pos < 0 || pos >= lenstr) return -1;
int i = 0, j = 0;
//next[j]:保存子串的某个位置匹配失败后应该回退到的位置
vector<int> next(lensub);
GetNext(sub, next);
while (i < lenstr && j < lensub)
{
if (j==-1 || str[i] == sub[j])
{
i++;
j++;
}
else
{
//不匹配,j回退到某位置重新进行匹配
j = next[j];
}
}
if (j >= lensub) return i - j;
else return -1;
}
6.补充nextval数组的求解方法
(1)当回退到的位置和当前字符一样时,就写回退到的位置对应的nextval值
(2)当回退到的位置和当前字符不一样时,就写当前字符原来的next值