后缀数组 小结

今天把后缀数组给看了下,评价就一句话:很好,很强大
懒得写废话,直接把相关重点简单记录一下:后缀数组就是将字符串所有后缀排序后的数组,设字符串为S,令后缀Suffix(i)表示S[i..len(S)]。用两个数组记录所有后缀的排序结果:

  • Rank[i]记录Suffix(i)排序后的序号,即Suffix[i]在所有后缀中是第Rank[i]小的后缀
  • SA[i]记录第i位后缀的首字母位置,即Suffix[SA[i]]在所有后缀中是第i小的后缀

然后就是怎么快速求所有后缀的顺序了,其中的关键是如何减少两个后缀比较的复杂度
方法是倍增法,定义一个字符串的k-前缀为该字符串的前k个字符组成的串,关于在k-后缀上的定义Suffix(k,i)、SA[k,i]和Rank[k,i]类似于前,则有

  • 若Rank[k,i]=Rank[k,j]且Rank[k,i+k]=Rank[k,j+k],则Suffix[2k,i]=Suffix[2k,j]
  • 若Rank[k,i]=Rank[k,j]且Rank[k,i+k]<Rank[k,j+k],则Suffix[2k,i]<Suffix[2k,j]
  • 若Rank[k,i]<Rank[k,j],则Suffix[2k,i]<Suffix[2k,j]

这样就能在常数时间内比较Suffix(2^k, i)之间的大小,从而对Suffix(2^k,i)时行排序,最后当2^k>n时,Suffix(2^k, i)之间的大小即为所有后缀之间的大小

于是求出了所有后缀的排序,有什么用呢?主要是用于求它们之间的最长公共前缀(Longest Common Prefix,LCP)

令LCP(i,j)为第i小的后缀和第j小的后缀(也就是Suffix(SA[i])和Suffix(SA[j]))的最长公共前缀的长度,则有如下两个性质:

  1. 对任意i<=k<=j,有LCP(i,j) = min(LCP(i,k),LCP(k,j))
  2. LCP(i,j)=min(i<k<=j)(LCP(k-1,k))

第一个性质是显然的,它的意义在于可以用来证明第二个性质。第二个性质的意义在于提供了一个将LCP问题转换为RMQ问题的方法:
令height[i]=LCP(i-1,i),即height[i]代表第i小的后缀与第i-1小的后缀的LCP,则求LCP(i,j)就等于求height[i+1]~height[j]之间的RMQ,套用RMQ算法就可以了,复杂度是预处理O(nlogn),查询O(1)

然后height的求法要用到另一个数组:令h[i]=height[SA[i]],即h[i]表示Suffix(i)的height值(同时height[i]就表示Suffix(SA[i])的height值),则有height[i]=h[Rank[i]]
然后h[i]有个性质:

  • h[i] >= h[i-1]-1

用这个性质我们在计算h[i]的时候进行后缀比较时只需从第h[i-1]位起比较,从而总的比较的复杂度是O(n),也就是说h数组在O(n)的时间内解决了。h解决了height也解决了,从而整个LCP问题就解决了^_^

然后后缀数组的应用就是利用它的LCP在需要字符串比较时降低复杂度。同时由于后缀数组的有序性可以很方便地使用二分

于是总结一下要点:

  • 利用倍增算法在O(nlogn)的时间内对后缀数组进行排序
  • 利用h数组的性质在O(n)的时间内求出排序后相邻后缀间的LCP数组height
  • 利用LCP的性质将平凡LCP问题转化为height数组上的RMQ问题

首先是求后缀数组:

[cpp]  view plain  copy
 print ?
  1. int cmp(int *r,int a,int b,int l)  
  2. {  
  3.     return r[a]==r[b] && r[a+l]==r[b+l];  
  4. }  
  5. void da(char *s,int *sa,int n,int m)  
  6. {  
  7.      int *x=wa,*y=wb,*t;  
  8.      int i,j,p;  
  9.      for (i=0;i<m;i++) w[i]=0;  
  10.      for (i=0;i<n;i++) w[x[i]=s[i]]++;  
  11.      for (i=1;i<m;i++) w[i]+=w[i-1];  
  12.      for (i=n-1;i>=0;i--) sa[--w[x[i]]]=i;  
  13.      for (j=1,p=1;p<n;j*=2,m=p)  
  14.      {  
  15.          for (p=0,i=n-j;i<n;i++) y[p++]=i;  
  16.          for (i=0;i<n;i++) if (sa[i]>=j) y[p++]=sa[i]-j;  
  17.          for (i=0;i<n;i++) v[i]=x[y[i]];  
  18.          for (i=0;i<m;i++) w[i]=0;  
  19.          for (i=0;i<n;i++) w[v[i]]++;  
  20.          for (i=1;i<m;i++) w[i]+=w[i-1];  
  21.          for (i=n-1;i>=0;i--) sa[--w[v[i]]]=y[i];  
  22.          for (t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)  
  23.              x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;  
  24.      }  
  25. }  


然后是求height数组

[cpp]  view plain  copy
 print ?
  1. void calheight(char *s,int *sa,int n)  
  2. {  
  3.      int i,j,k=0;  
  4.      for (i=1;i<=n;i++) rk[sa[i]]=i;  
  5.      for (i=0;i<n;h[rk[i++]]=k)  
  6.          for (k?k--:0,j=sa[rk[i]-1];s[i+k]==s[j+k];k++);  
  7. }  


然后是对height数组搞RMQ

[cpp]  view plain  copy
 print ?
  1. void RMQ()  
  2. {  
  3.      int i,j;  
  4.      er[0]=1;  
  5.      for (i=1;i<20;i++)  
  6.          er[i]=er[i-1]*2;  
  7.      log2[0]=-1;  
  8.      for (i=1;i<=n;i++)  
  9.          log2[i]=(i&(i-1))?log2[i-1]:log2[i-1]+1;  
  10.      for (i=1;i<=n;i++)  
  11.          f[i][0]=h[i];  
  12.      for (j=1;j<20;j++)  
  13.          for (i=1;i+er[j]-1<=n;i++)  
  14.              f[i][j]=min(f[i][j-1],f[i+er[j-1]][j-1]);  
  15. }  


然后是求公共前缀lcp

[cpp]  view plain  copy
 print ?
  1. int lcp(int a,int b)  
  2. {  
  3.      int x=rk[a],y=rk[b];这一句很重要,我经常忘记  
  4.      if (x>y)  
  5.      {  
  6.              int t;  
  7.              t=x;x=y;y=t;  
  8.      }  
  9.      x++;  
  10.      int k=log2[y-x+1];  
  11.      return min(f[x][k],f[y-er[k]+1][k]);  
  12. }  

1.公共子串 
2.最长重复子串
3.最长回文子串
4.重复次数最多的连续重复子串

当然还有根据height数组的分组思想,和二分答案。

poj 3693

给定一个字符串,求重复次数最多的连续重复子串。

枚举长度L,然后求长为L的子串最多能连续出现几次。其实就是求lcp(i,i+L),不必像论文里写的向前向后匹配。令k=lcp(i,i+L),t=i-(l-k%l)。如果t>=0 && k%l!=0,那么ans=k/l+2,否则就是k/l+1。

[cpp]  view plain  copy
 print ?
  1. #include <iostream>  
  2. #include <cstring>  
  3. const int maxn=100003;  
  4. char s[maxn];  
  5. int wa[maxn],wb[maxn],w[maxn],v[maxn],sa[maxn],rk[maxn],h[maxn],er[20],log2[maxn],a[maxn];  
  6. int f[maxn][20];  
  7. int n,cc;  
  8. using namespace std;  
  9. int cmp(int *r,int a,int b,int l)  
  10. {  
  11.     return r[a]==r[b] && r[a+l]==r[b+l];  
  12. }  
  13. void da(char *s,int *sa,int n,int m)  
  14. {  
  15.      int *x=wa,*y=wb,*t;  
  16.      int i,j,p;  
  17.      for (i=0;i<m;i++) w[i]=0;  
  18.      for (i=0;i<n;i++) w[x[i]=s[i]]++;  
  19.      for (i=1;i<m;i++) w[i]+=w[i-1];  
  20.      for (i=n-1;i>=0;i--) sa[--w[x[i]]]=i;  
  21.      for (j=1,p=1;p<n;j*=2,m=p)  
  22.      {  
  23.          for (p=0,i=n-j;i<n;i++) y[p++]=i;  
  24.          for (i=0;i<n;i++) if (sa[i]>=j) y[p++]=sa[i]-j;  
  25.          for (i=0;i<n;i++) v[i]=x[y[i]];  
  26.          for (i=0;i<m;i++) w[i]=0;  
  27.          for (i=0;i<n;i++) w[v[i]]++;  
  28.          for (i=1;i<m;i++) w[i]+=w[i-1];  
  29.          for (i=n-1;i>=0;i--) sa[--w[v[i]]]=y[i];  
  30.          for (t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)  
  31.              x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;  
  32.      }  
  33. }  
  34. void calheight(char *s,int *sa,int n)  
  35. {  
  36.      int i,j,k=0;  
  37.      for (i=1;i<=n;i++) rk[sa[i]]=i;  
  38.      for (i=0;i<n;h[rk[i++]]=k)  
  39.          for (k?k--:0,j=sa[rk[i]-1];s[i+k]==s[j+k];k++);  
  40. }  
  41. void RMQ()  
  42. {  
  43.      int i,j;  
  44.      er[0]=1;  
  45.      for (i=1;i<20;i++)  
  46.          er[i]=er[i-1]*2;  
  47.      log2[0]=-1;  
  48.      for (i=1;i<=n;i++)  
  49.          log2[i]=(i&(i-1))?log2[i-1]:log2[i-1]+1;  
  50.      for (i=1;i<=n;i++)  
  51.          f[i][0]=h[i];  
  52.      for (j=1;j<20;j++)  
  53.          for (i=1;i+er[j]-1<=n;i++)  
  54.              f[i][j]=min(f[i][j-1],f[i+er[j-1]][j-1]);  
  55. }  
  56. int lcp(int a,int b)  
  57. {  
  58.      int x=rk[a],y=rk[b];  
  59.      if (x>y)  
  60.      {  
  61.              int t;  
  62.              t=x;x=y;y=t;  
  63.      }  
  64.      x++;  
  65.      int k=log2[y-x+1];  
  66.      return min(f[x][k],f[y-er[k]+1][k]);  
  67. }  
  68. void work()  
  69. {  
  70.      int i,j,k,t,r,l,mm=0,tot=0;  
  71.      for (l=1;l<n;l++)  
  72.          for (i=0;i+l<n;i+=l)  
  73.          {  
  74.              k=lcp(i,i+l);  
  75.              r=k/l+1;  
  76.              t=i-(l-k%l);  
  77.              if (t>=0 && k%l!=0)  
  78.                 if (lcp(t,t+l)>=k) r++;  
  79.              if (r>mm)  
  80.              {  
  81.                       tot=0;  
  82.                       a[++tot]=l;  
  83.                       mm=r;  
  84.              }  
  85.              else if (r==mm) {  
  86.                   a[++tot]=l; }          
  87.          }  
  88.      int st=0,tl=n;  
  89.      for (i=1;i<n;++i)  
  90.          for (j=1;j<=tot;++j)  
  91.          {  
  92.              k=lcp(sa[i],sa[i]+a[j]);  
  93.              if (k>=(mm-1)*a[j])  
  94.              {  
  95.                  st=sa[i];  
  96.                  tl=mm*a[j];  
  97.                  i=n;  
  98.                  break;  
  99.              }  
  100.          }  
  101.      printf("Case %d: ",cc);  
  102.      for (i=st;i<st+tl;i++)  
  103.          printf("%c",s[i]);  
  104.      printf("\n");  
  105. }                        
  106. int main()  
  107. {  
  108.     freopen("pin.txt","r",stdin);  
  109.     freopen("pou.txt","w",stdout);  
  110.     cc=0;  
  111.     while (scanf("%s",s)!=EOF && !(s[0]=='#' && strlen(s)==1))  
  112.     {  
  113.           cc++;  
  114.           n=strlen(s);  
  115.           s[n]=0;  
  116.           da(s,sa,n+1,128);  
  117.           calheight(s,sa,n);  
  118.           RMQ();  
  119.           work();  
  120.     }  
  121.     return 0;  
  122. }  


poj2406

论文解释的很清楚,求height数组中每一个到height[rank[1]]之间的最小值即可。

记住:是rank[1]

[cpp]  view plain  copy
 print ?
  1. #include <iostream>  
  2. #include <cstring>  
  3. const int maxn=1000003;  
  4. char s[maxn];  
  5. int wa[maxn],wb[maxn],w[maxn],v[maxn],sa[maxn],rk[maxn],rm[maxn],h[maxn];  
  6. int n;  
  7. using namespace std;  
  8. int cmp(int *r,int a,int b,int l)  
  9. {  
  10.     return r[a]==r[b] && r[a+l]==r[b+l];  
  11. }  
  12. void da(char *s,int *sa,int n,int m)  
  13. {  
  14.      int *x=wa,*y=wb,*t;  
  15.      int i,j,p;  
  16.      for (i=0;i<m;i++) w[i]=0;  
  17.      for (i=0;i<n;i++) w[x[i]=s[i]]++;  
  18.      for (i=1;i<m;i++) w[i]+=w[i-1];  
  19.      for (i=n-1;i>=0;i--) sa[--w[x[i]]]=i;  
  20.      for (j=1,p=1;p<n;j*=2,m=p)  
  21.      {  
  22.          for (p=0,i=n-j;i<n;i++) y[p++]=i;  
  23.          for (i=0;i<n;i++) if (sa[i]>=j) y[p++]=sa[i]-j;  
  24.          for (i=0;i<n;i++) v[i]=x[y[i]];  
  25.          for (i=0;i<m;i++) w[i]=0;  
  26.          for (i=0;i<n;i++) w[v[i]]++;  
  27.          for (i=1;i<m;i++) w[i]+=w[i-1];  
  28.          for (i=n-1;i>=0;i--) sa[--w[v[i]]]=y[i];  
  29.          for (t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)  
  30.              x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;  
  31.      }  
  32. }  
  33. void calheight(char *s,int *sa,int n)  
  34. {  
  35.      int i,j,k=0;  
  36.      for (i=1;i<=n;i++) rk[sa[i]]=i;  
  37.      for (i=0;i<n;h[rk[i++]]=k)  
  38.          for (k?k--:0,j=sa[rk[i]-1];s[i+k]==s[j+k];k++);  
  39. }  
  40. void RMQ()  
  41. {  
  42.      int i,k=rk[0];  
  43.      rm[k]=1000000;  
  44.      for (i=k-1;i>=0;i--)   
  45.          if (h[i+1]<rm[i+1]) rm[i]=h[i+1];  
  46.          else rm[i]=rm[i+1];  
  47.      for (i=k+1;i<=n;i++)  
  48.          if (h[i]<rm[i-1]) rm[i]=h[i];  
  49.          else rm[i]=rm[i-1];           
  50. }  
  51. int work()  
  52. {  
  53.     int i;  
  54.     for (i=1;i<=n/2;i++)  
  55.     {  
  56.         if (n%i) continue;  
  57.         if (rm[rk[i]]==n-i) return n/i;  
  58.     }  
  59.     return 1;  
  60. }   
  61. int main()  
  62. {  
  63.     freopen("pin.txt","r",stdin);  
  64.     freopen("pou.txt","w",stdout);  
  65.     while (scanf("%s",s)!=EOF && !(s[0]=='.' && strlen(s)==1))  
  66.     {  
  67.           n=strlen(s);  
  68.           s[n]=0;  
  69.           da(s,sa,n+1,128);  
  70.           calheight(s,sa,n);  
  71.           RMQ();  
  72.           printf("%d\n",work());  
  73.     }  
  74.     return 0;  
  75. }  

         

poj2774

见论文

[cpp]  view plain  copy
 print ?
  1. #include <iostream>  
  2. using namespace std;  
  3. const int maxn=200004;  
  4. int wa[maxn],wb[maxn],w[maxn],v[maxn],a[maxn],sa[maxn],rk[maxn],h[maxn];  
  5. char s[maxn],s1[maxn];  
  6. int n,n1;  
  7. int cmp(int *r,int a,int b,int l)  
  8. {  
  9.     return r[a]==r[b] && r[a+l]==r[b+l];  
  10. }  
  11. void da(char *s,int *sa,int n,int m)  
  12. {  
  13.      int *x=wa,*y=wb,*t,i,j,p;  
  14.      for (i=0;i<m;i++) w[i]=0;  
  15.      for (i=0;i<n;i++) w[x[i]=s[i]]++;  
  16.      for (i=1;i<m;i++) w[i]+=w[i-1];  
  17.      for (i=n-1;i>=0;i--) sa[--w[x[i]]]=i;  
  18.      for (j=1,p=1;p<n;j*=2,m=p)  
  19.      {  
  20.          for (p=0,i=n-j;i<n;i++) y[p++]=i;  
  21.          for (i=0;i<n;i++) if (sa[i]>=j) y[p++]=sa[i]-j;  
  22.          for (i=0;i<n;i++) v[i]=x[y[i]];  
  23.          for (i=0;i<m;i++) w[i]=0;  
  24.          for (i=0;i<n;i++) w[v[i]]++;  
  25.          for (i=1;i<m;i++) w[i]+=w[i-1];  
  26.          for (i=n-1;i>=0;i--) sa[--w[v[i]]]=y[i];  
  27.          for (t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)  
  28.              x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;  
  29.      }  
  30. }  
  31. void calheight(char *s,int *sa,int n)  
  32. {  
  33.      int i,j,k=0;  
  34.      for (i=1;i<=n;i++) rk[sa[i]]=i;  
  35.      for (i=0;i<n;h[rk[i++]]=k)  
  36.          for (k?k--:0,j=sa[rk[i]-1];s[i+k]==s[j+k];k++);  
  37. }  
  38. int work()  
  39. {  
  40.     int i,ans=0;  
  41.     for (i=2;i<=n;i++)  
  42.         if (sa[i]<n1) a[i]=0;  
  43.         else a[i]=1;  
  44.     for (i=3;i<=n;i++)  
  45.         if (a[i]!=a[i-1] && h[i]>ans)  
  46.            ans=h[i];  
  47.     return ans;  
  48. }  
  49. int main()  
  50. {  
  51.     freopen("pin.txt","r",stdin);  
  52.     freopen("pou.txt","w",stdout);  
  53.     scanf("%s",s);  
  54.     scanf("%s",s1);  
  55.     n1=strlen(s);  
  56.     strcat(s,"$");  
  57.     strcat(s,s1);  
  58.     n=strlen(s);  
  59.     s[n]=0;  
  60.     da(s,sa,n+1,128);  
  61.     calheight(s,sa,n);  
  62.     printf("%d\n",work());  
  63. }  


poj1743

就是应用二分答案和分组思想(我一开始很二叉的用数组记录了分组,表示就是循环的时候判断一下就可以了,详细可以见论文

[cpp]  view plain  copy
 print ?
  1. #include <stdio.h>  
  2. using namespace std;  
  3. const int maxn=20005;  
  4. int wa[maxn],wb[maxn],sa[maxn],rk[maxn],s[maxn],w[maxn],h[maxn],v[maxn];  
  5. int n,ans;  
  6. void init()  
  7. {  
  8.     int i;   
  9.     for (i=0;i<n;i++)  
  10.         scanf("%d",&s[i]);  
  11.     for (i=0;i<n-1;i++)  
  12.         s[i]=s[i+1]-s[i]+100;          
  13.     s[--n]=0;  
  14. }          
  15. int cmp(int* r,int a,int b,int l)  
  16. {  
  17.     return r[a]==r[b] && r[a+l]==r[b+l];  
  18. }  
  19. void da(int* s,int* sa,int n,int m)  
  20. {  
  21.      int* x=wa;int* y=wb;int* t;  
  22.      int i,j,p;  
  23.      for (i=0;i<m;i++) w[i]=0;  
  24.      for (i=0;i<n;i++) w[x[i]=s[i]]++;  
  25.      for (i=1;i<m;i++) w[i]+=w[i-1];  
  26.      for (i=n-1;i>=0;i--) sa[--w[x[i]]]=i;  
  27.      for (j=1,p=1;p<n;j*=2,m=p)  
  28.      {  
  29.          for (p=0,i=n-j;i<n;i++) y[p++]=i;  
  30.          for (i=0;i<n;i++) if (sa[i]>=j) y[p++]=sa[i]-j;  
  31.          for (i=0;i<m;i++) w[i]=0;  
  32.          for (i=0;i<n;i++) v[i]=x[y[i]];  
  33.          for (i=0;i<n;i++) w[v[i]]++;  
  34.          for (i=1;i<m;i++) w[i]+=w[i-1];  
  35.          for (i=n-1;i>=0;i--) sa[--w[v[i]]]=y[i];  
  36.          for (t=x,x=y,y=t,x[sa[0]]=0,p=1,i=1;i<n;i++)  
  37.              x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;  
  38.      }  
  39. }  
  40. void calheight(int* s,int* sa,int n)  
  41. {  
  42.      int i,j,k=0;  
  43.      for (i=1;i<=n;i++)  
  44.          rk[sa[i]]=i;  
  45.      for (i=0;i<n;h[rk[i++]]=k)  
  46.          for (k?k--:0,j=sa[rk[i]-1];s[i+k]==s[j+k];k++);  
  47. }  
  48. int ok(int t)  
  49. {  
  50.     int smax,smin,i,j;  
  51.     smin=smax=sa[1];  
  52.     for (i=2;i<=n;i++)  
  53.     {  
  54.         if (h[i]>=t && i<n)  
  55.         {  
  56.            if (sa[i]>smax) smax=sa[i];  
  57.            if (sa[i]<smin) smin=sa[i];  
  58.            continue;  
  59.         }  
  60.         if (smax-smin>=t) return 1;  
  61.         smin=smax=sa[i];  
  62.     }  
  63.     return 0;  
  64. }       
  65. void bin()  
  66. {  
  67.     int ll=4,rr=n,mid;  
  68.     while (ll<=rr)  
  69.     {  
  70.           mid=(ll+rr)/2;  
  71.           if (ok(mid)) ans=mid,ll=mid+1;  
  72.           else rr=mid-1;  
  73.     }  
  74. }    
  75. int main()  
  76. {  
  77.     freopen("pin.txt","r",stdin);  
  78.     freopen("pou.txt","w",stdout);  
  79.     while (scanf("%d",&n),n)  
  80.     {  
  81.           init();  
  82.           da(s,sa,n+1,200);  
  83.           calheight(s,sa,n);  
  84.           bin();  
  85.           ans++;  
  86.           if (ans<5) ans=0;  
  87.           printf("%d\n",ans);  
  88.     }  
  89.     return 0;  
  90. }  
  91.       


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值