ACM算法总结字符串（三）

最新推荐文章于 2022-06-05 13:09:33 发布

原创最新推荐文章于 2022-06-05 13:09:33 发布 · 258 阅读

1 ·

CC 4.0 BY-SA版权

ACM算法总结专栏收录该内容

23 篇文章

订阅专栏

本文探讨了在存在通配符的情况下进行单模式匹配的方法，利用数学公式和快速傅里叶变换（FFT）加速匹配过程。同时介绍了字符串哈希技术，包括单哈希和双哈希的应用，以及如何通过哈希值判断字符串是否为回文串。

平常的单模式匹配就是给出一个模式串 t，给出一个文本串 s，问 s 中能够在哪些位点完全匹配 t，这个用 KMP 可以很好地解决。但是如果在模式串和文本串中有一些通配符，也就是这些符号匹配什么都可以，那这样就解决不了了。比如说 t=a*b ，s=aebr*ob，其中 * 表示通配符，那么 t 在 s 中可以匹配的位点为 1 5（下标从 1 开始）。

解决办法本质上是把匹配转变为一个数学公式 G(x)，表示模式串在原串的 x 处的匹配公式，并且这个 G(x) 满足 $\forall x\ge 0,G(x)\ge 0$ ，且当 G(x)=0 时表示可以匹配。一般 G(x) 由一些子公式组成。

对于带通配符的单模式匹配问题，我们可以设子函数 p(a, b) 表示 t[a] 和 s[b] 的匹配函数，p(a, b) 和 G 具有一样的性质，所以我们的主要目标就是如何构造函数 p，使得它满足这个性质。比如对于这个问题，我们可以把 * 设为0，然后设 $p(a,b)=(t[a]-s[b])^2t[a]s[b]$ ，那么满足 $p(a,b)\ge0$ ，并且仅当 t[a]=s[b] 或两个中有通配符时才成立 p(a, b)=0 ，其余情况都大于 0 。所以有 $G(x)=\sum\limits_{i=0}^{m-1}p(i,x+i)$ ，可以证明这个 G(x) 满足上面的限制。

进一步，我们把模式串 t 翻转（这是为了凑出常数），然后公式就变为 $G(x)=\sum\limits_{i=0}^{m-1}p(m-i-1,x+i)$ ，发现 $m - i - 1 + x + i = m - 1 + x$ ，对于特定的 x 是一个常数，那把 p 带入展开之后，这不就是一个很长的卷积和式么。用几次 FFT 加速，就可以算出所有的 G(x)，然后一一判断是否等于 0 来决定是否匹配。

其实一般的单模式匹配也可以这么做，只要改一下 p 函数，改成 $p(a,b)=(t[a]-s[b])^2$ 就可以了。

字符串哈希

双哈希一般可以很好地避免冲突，而单哈希则可以更好地处理字符串。

双哈希就是给定两个哈希值，分别计算两次单哈希，然后用一个二元组唯一表示一个字符串。

单哈希的一般方法如下：给定一个质数 P，一个模数 M，然后对于字符串 s，其 hash 数组： $hash[i]=(hash[i-1]*P+s[i])\%M$ ，这里一般把 M 设为 unsigned long long 的上限，这样就可以自然溢出，然后 P 就选择一个中等大小的质数就行了。

算出 hash 数组之后，如果要求 s 的某个子串的 hash 值，则有 $hash_{s[l,...,r]}=hash[r]-hash[l-1]*P^{r-l+1}$ 。

const unsigned long long P=100007;
const int maxn=1e6+5;
char s[maxn],t[maxn];
unsigned long long h[maxn],p[maxn];

void build(char *s)
{
    //p[0]=1;
    //REP(i,1,maxn-5) p[i]=p[i-1]*P;
    for(int i=1;s[i];i++) h[i]=h[i-1]*P+s[i];
}

unsigned long long get_hash(int l,int r)
{
    return h[r]-h[l-1]*p[r-l+1];
}