KMP进行字符串匹配时的核心思想:利用以往成功对比所提供的信息,可以避免文本串字符指针的回退,可能使模式串大跨度地右移
next[]表是KMP的核心,它的定义是:next数组用来存模式串中每个前缀最长的能匹配前缀子串的结尾字符的下标
next表的作用:每次p串移动的步数就是通过查找next[ ]表
首先创建next[]表,next[j] = max( N(p,j) )
如上图,在P[0,j)中长度为t的真前缀,应与长度为t的真后缀完全匹配,t来自集合:
N(p,j) = {0 <= t < j | p[0,t) = p[j-t,j) }
从图中可以看出,若下一轮对比将从T[i]
与p[t]
的比对开始,这等效于将p右移j-t
个单元,位移量与t
成反比。因此,为保证p与T的对齐位置(指针i)绝不倒退,同时又不致遗漏任何可能的匹配,应在集合N(p,j)
中挑选最大的t。
题目描述
给定一个模式串 S,以及一个模板串 P,所有字符串中只包含大小写英文字母以及阿拉伯数字。
模板串 P 在模式串 S 中多次作为子串出现。
求出模板串 P 在模式串 S 中所有出现的位置的起始下标。
输入格式
第一行输入整数 N,表示字符串 P 的长度。
第二行输入字符串 P。
第三行输入整数 M,表示字符串 S 的长度。
第四行输入字符串 S。
输出格式
共一行,输出所有出现位置的起始下标(下标从 0 开始计数),整数之间用空格隔开。
数据范围
1≤N≤105
1≤M≤106
输入样例:
3
aba
5
ababa
输出样例:
0 2
#include<iostream>
using namespace std;
const int N = 1000010,M = 100010;
int ne[N];
char s[M],p[N];
int n,m;
int main()
{
cin >> n >> p + 1 >> m >> s + 1;
//求next数组
for(int i = 2,j = 0;i <= n;i ++)
{
while(j && p[i] != p[j + 1]) j = ne[j];
if(p[i] == p[j+1]) j ++;
ne[i] = j;
}
//模式匹配
for(int i = 1,j = 0;i <= m;i ++)
{
while(j && s[i] != p[j + 1]) j = ne[j];
if(s[i] == p[j + 1]) j ++;
if(j - n == 0)
{
cout << i - n <<' ';
j = ne[j];
}
}
return 0;
}
KMP算法也存在局限
示例:
如有错误,欢迎指正!