一句话题意:给定两个字符串A和B,求最长公共子串。
算法分析:
字符串的任何一个子串都是这个字符串的某个后缀的前缀。求A和B的最长公共子串等价于求A的后缀和B的后缀的最长公共前缀的最大值。如果枚举A和B的所有的后缀,那么这样做显然效率低下。由于要计算A的后缀和B的后缀的最长公共前缀,所以先将第二个字符串写在第一个字符串后面,中间用一个没有出现过的字符隔开,再求这个新的字符串的后缀数组。大家可以在下图中找找这个新的字符串的后缀中找找规律
![]()
那么是不是所有的height值中的最大值就是答案呢?不一定!有可能这两个后缀是在同一个字符串中的,所以实际上只有当suffix(sa[i-1])和suffix(sa[i])不是同一个字符串中的两个后缀时,height[i]才是满足条件的。而这其中的最大值就是答案。记字符串A和字符串B的长度分别为|A|和|B|。求新的字符串的后缀数组和height数组的时间是O(|A|+|B|),然后求排名相邻但原来不在同一个字符串中的两个后缀的height值的最大值,时间也是O(|A|+|B|),所以整个做法的时间复杂度为O(|A|+|B|)。时间复杂度已经取到下限,由此看出,这是一个非常优秀的算法。
附上我的代码
#include <cstdio>
#include <cstring>
using namespace std;
int rank[210000],sa[210000],y[210000],wr[210000],rsort[210000],a[210000],height[210000];
char st[100010];
bool cmp(int k1,int k2,int ln)
{
return wr[k1]==wr[k2]&&wr[k1+ln]==wr[k2+ln];
}
void get_sa(int n,int m)
{
int i,j,k,p,ln;
for(i=1;i<=n;i++) rank[i]=a[i];
//a数组:新的字符串。rank数组:名次数组(即你是第几个)
for(i=0;i<=m;i++) rsort[i]=0;
for(i=1;i<=n;i++) rsort[rank[i]]++;
for(i=1;i<=m;i++) rsort[i]+=rsort[i-1];
for(i=n;i>=1;i--) sa[rsort[rank[i]]--]=i;
//sa数组:后缀数组(即排第几的是谁)
//以上四句为基数排序
ln=1;p=0;
//ln为当前子串的长度,p表示有多少不相同的子串
while(p<n)
//如果p等于n,那么函数可以结束。因为在当前长度的字符串中,已经没有相同的字符串,接下来的排序不会改变rank值。
{
k=0;
for(i=n-ln+1;i<=n;i++) y[++k]=i;
for(i=1;i<=n;i++) if (sa[i]>ln) y[++k]=sa[i]-ln;
for(i=1;i<=n;i++) wr[i]=rank[y[i]];
//数组y保存的是对第二关键字排序的结果。
//数组wr保存的是对第二关键字排序后的rank值
//以下为对第一关键字排序
for(i=0;i<=m;i++) rsort[i]=0;
for(i=1;i<=n;i++) rsort[wr[i]]++;
for(i=1;i<=m;i++) rsort[i]+=rsort[i-1];
for(i=n;i>=1;i--) sa[rsort[wr[i]]--]=y[i];
memcpy(wr,rank,sizeof(wr));
rank[sa[1]]=1; p=1;
for(int i=2;i<=n;i++)
{
if(!cmp(sa[i],sa[i-1],ln)) p++;
rank[sa[i]]=p;
}
//得到新的rank数组。这里要注意的是,可能有多个字符串的rank值是相同的,所以必须比较两个字符串是否完全相同
m=p; ln*=2;
}
}
void get_he(int n)
{
int i,j,k=0;
for(i=1;i<=n;i++)
{
if(k) k--;
j=sa[rank[i]-1];
while (a[j+k]==a[i+k]) k++;
height[rank[i]]=k;
}
}
int main()
{
int n1,n2,n,ans=0;
scanf("%s",st+1);
n1=strlen(st+1);
for (int i=1;i<=n1;i++) a[i]=st[i];
n=n1;
scanf("%s",st+1);
n2=strlen(st+1);
for (int i=n+1;i<=n+n2;i++) a[i]=st[i-n];
n+=n2;
//将两个字符串并为一个
get_sa(n,256);
get_he(n);
for (int i=1;i<=n;i++)
{
if ((i+height[i]-1<=n1&&sa[rank[i]-1]>n1)||(i>n1&&sa[rank[i]-1]+height[i]-1<=n1))
{
if (height[rank[i]]>ans) ans=height[rank[i]];
}
}
printf("%d",ans);
return 0;
}