字符串哈希 —— 模板题 AcWing 841. 字符串哈希
字符串前缀哈希方法
哈希函数的定义为h(str) = Sum_1_l(str[i] * p^(l-i+1))。
观察这个函数定义的P进制数和十进制数一样,左边的权重越来越大。
那么对h[l,r]这个区间的哈希值如何取呢?
- 就类似十进制的1234567取(3,5)区间的345,即12345-12*10^3,注意由于12345是包含了整个左侧的前缀,因此减去左侧的时候,应该将左侧的12部分乘上其应该有的权重。
- 那么字符串区间的哈希值就是h[r] - h[l - 1] * p^(r - l + 1),注意下面代码实现p是通过数组累乘先存着,计算复杂度小,同时取模不会有问题
注意:
- 一般不映射到0,如A映射为0,那么AA = 0*P+0 = 0,一定冲突,因此从1开始映射
- hash 冲突的解决,P的经验值是131或13331,取模的数用2^64,这样取的 冲突概率低
核心思想:将字符串看成P进制数,P的经验值是131或13331,取这两个值的冲突概率低
小技巧:取模的数用2^64,这样直接用unsigned long long存储,溢出的结果就是取模的结果
typedef unsigned long long ULL;
ULL h[N], p[N]; // h[k]存储字符串前k个字母的哈希值, p[k]存储 P^k mod 2^64
// 初始化
p[0] = 1;
h[0] = 0;
for (int i = 1; i <= n; i ++ )
{
h[i] = h[i - 1] * P + str[i];
p[i] = p[i - 1] * P;
}
// 计算子串 str[l ~ r] 的哈希值
ULL get(int l, int r)
{
return h[r] - h[l - 1] * p[r - l + 1];
}