字符串KMP-bzoj 3670 动物园

最新推荐文章于 2019-08-06 08:30:52 发布

原创最新推荐文章于 2019-08-06 08:30:52 发布 · 328 阅读

0 ·

CC 4.0 BY-SA版权

字符串kmp 专栏收录该内容

4 篇文章

订阅专栏

本文深入解析KMP算法中的next数组概念，并探讨如何基于此计算num数组，旨在找出字符串中既是前缀也是后缀的子串数量，提供算法理解和编程实践指导。

Description

近日，园长发现动物园中好吃懒做的动物越来越多了。例如企鹅，只会卖萌向游客要吃的。为了整治动物园的不良风气，让动物们凭自己的真才实学向游客要吃的，园长决定开设算法班，让动物们学习算法。
某天，园长给动物们讲解KMP算法。
园长：“对于一个字符串S，它的长度为L。我们可以在O(L)的时间内，求出一个名为next的数组。有谁预习了next数组的含义吗？”
熊猫：“对于字符串S的前i个字符构成的子串，既是它的后缀又是它的前缀的字符串中（它本身除外），最长的长度记作next[i]。”
园长：“非常好！那你能举个例子吗？”
熊猫：“例S为abcababc，则next[5]=2。因为S的前5个字符为abcab，ab既是它的后缀又是它的前缀，并且找不到一个更长的字符串满足这个性质。同理，还可得出next[1] = next[2] = next[3] = 0，next[4] = next[6] = 1，next[7] = 2，next[8] = 3。”
园长表扬了认真预习的熊猫同学。随后，他详细讲解了如何在O(L)的时间内求出next数组。
下课前，园长提出了一个问题：“KMP算法只能求出next数组。我现在希望求出一个更强大num数组一一对于字符串S的前i个字符构成的子串，既是它的后缀同时又是它的前缀，并且该后缀与该前缀不重叠，将这种字符串的数量记作num[i]。例如S为aaaaa，则num[4] = 2。这是因为S的前4个字符为aaaa，其中a和aa都满足性质‘既是后缀又是前缀’，同时保证这个后缀与这个前缀不重叠。而aaa虽然满足性质‘既是后缀又是前缀’，但遗憾的是这个后缀与这个前缀重叠了，所以不能计算在内。同理，num[1] = 0,num[2] = num[3] = 1,num[5] = 2。”
最后，园长给出了奖励条件，第一个做对的同学奖励巧克力一盒。听了这句话，睡了一节课的企鹅立刻就醒过来了！但企鹅并不会做这道题，于是向参观动物园的你寻求帮助。你能否帮助企鹅写一个程序求出num数组呢？
特别地，为了避免大量的输出，你不需要输出num[i]分别是多少，你只需要输出
$∏i=1L(num[i]+1)\prod_{i=1}^{L}(num[i]+1)$ 对1,000,000,007取模的结果即可。
在这里插入图片描述

Input

第1行仅包含一个正整数n ，表示测试数据的组数。随后n行，每行描述一组测试数据。每组测试数据仅含有一个字符串S，S的定义详见题目描述。数据保证S 中仅含小写字母。输入文件中不会包含多余的空行，行末不会存在多余的空格。

Output

包含 n 行，每行描述一组测试数据的答案，答案的顺序应与输入数据的顺序保持一致。对于每组测试数据，仅需要输出一个整数，表示这组测试数据的答案对 1,000,000,007 取模的结果。输出文件中不应包含多余的空行。

Sample Input

3
aaaaa
ab
abcababc

Sample Output

36
1
32

Hint

n≤5,L≤1,000,000

题意分析

这个题目的描述很长，大家都是这是个阅读理解题，不过在那一大堆啰嗦的故事中，关于KMP的next数组的描述还是挺好的，初学KMP的人读一读挺有意思。

这个题是要计算一个字符串的num数组，并且把num[]中每一个元素加1的值连乘起来作为最终的结果。而字符串的num[]数组中某一个元素num[i]的含义是字符串s[1…i]不重叠的不同的公共前后缀的个数。
拿题目中的Input和Output例子来分析：
第一个输入：aaaaa

所以，输出结果应该是：(num[0]+1) × (num[1]+1) × (num[3]+1) × (num[4]+1) × (num[5]+1)，也就是 (0+1) × (1+1) × (1+1) × (2+1) × (2+1) = 36

再看第二个input：ab，这个字符串没有公共前后缀，因此next[1]=next[2]=0，且num[1]=num[2]=0。结果是（0+1）× （0+1） = 1

最后再看第三个input：abcababc
在这里插入图片描述
所以最后的结果是：（0+1）×（0+1）×（0+1）×（1+1）×（1+1）×（1+1）×（1+1）=32

解题思路

大体的思路是在计算next[]数组的O（L）的循环过程中，同时统计出每个i对应的num[1]值，也就是统计出每个i对应的各个共同前后缀个数，然后再对num[]数组进行处理，去除掉重叠的共同前后缀个数。
计算num[]数组的过程和计算next[]数组的过程是密切相关的，我们可以这样想：
如果 next[i]=0，说明子串s[1…i]是没有共同前后缀的，那么这时的num[i]也就是0；
如果next[i]>0呢？例如next[i]=1，那说明子串s[1…i]是“axxx…xxxa”这样的，共同前后缀只有“a”这一种，那么num[i]也就是1了。
当next[i]比1更大呢，比如next[i]=4，共同前后缀最大长度是4个字符，如“abab…abab”这样的，除了“abab”是一种共同前后缀（也是最长的一种），那还有“ab”也是一种，这时的num[i]=2。
这个计算过程，和在计算next[]数组过程中，遇到共同前后缀失配时的处理方法是一样的，要不断地通过j=next[j]回溯回去。

还是上面的例子，如果next[i]=4，说明目前子串s[1…i]的最大共同前后缀长度是4，如“abab…abab”。我们找到了一种也是最长的共同前后缀“abab”，相当于num[i]有了一个1。接下来要在看看这个最长的前后缀“abab”它的next值，也就是next[4]，这时next[4]=2，说明“abab”有一个长度为2的最大共同前后缀“ab”，这也意味着整个子串s[1…i]（“abab…abab”）又多了一种共同前后缀“ab”，那么num[i]此时应该为2了。在接下来还要看“ab”这个子串还有没有共同前后缀，也就是再看next[2]的值，这时，next[2]=0，说明已经找回到头了，这个num[i]的值就计算完了。

这个像是递归的思想，在代码实现的时候，我们在一个i的循环中，依次计算好每一个next[i]值和num[i]值，当计算出一个新的next[i]值，要计算num[i]时，只需要用num[ next[i] ]+1即可。举个例子好理解：当我们计算出 next[i]=4时，只需要在 num[4]的基础上加一就得到了 num[i]的值了，（啰嗦一下，当我们计算出 next[i]为4时，说明s[1…i]现在有一个最长的共同前后缀“abab”，num[i]暂时为1，那还有没有别的前后缀了呢？比如“ab”，那就要看前四个字符的子串“abab”，而num[4]里已经计算好了前四个字符“abab”的前后缀个数了，所以，如果我们计算出next[i]=4了，那么num[i] = num[4]+1就可以了）。

代码分析

首先是数据结构
一个字符数组s用来存放字符串，
一个整数数组next[]用来存放next值，
由于最终的结果要每一个num[i]的值加1以后连乘，所以在程序中计算num值的时候直接就把每一个num值加好1，放在一个num1[]数组中，也是整型
连乘的结果ans要定义成long long
取模的常数md=1000000007

char s[1000010];      //用来存放字符串
int num1[1000010],next[1000010];		//定义next数组和num1数组，
long long ans;
const long long md=1000000007;

初始化变量：

		memset(cnt,0,sizeof(num1));		//num1和next两个数组初始化为0
		memset(next,0,sizeof(next));
		scanf("%s",s+1);		//读入字符串s，下标从1开始
		l=strlen(s+1);				//字符串的长度为l
		num1[1]=1;					// 第一个num1[1]=1

通过O（L）的循环计算每一个next值和num1的值：

for (i=2,j=0;i<=l;i++)
		{
			while (j&&s[j+1]!=s[i]) j=next[j];	//在计算next过程中，如果失配就回退
			if (s[j+1]==s[i]) j++;		//如果匹配，就j加1
			next[i]=j;						//得到一个next[i]值为j
			cnt[i]=cnt[j]+1;				//num1[i]的值就是num1[j]的值加1
		}