OI Wiki哈希算法详解：从字符串哈希到滚动哈希的冲突解决-优快云博客

OI Wiki哈希算法详解：从字符串哈希到滚动哈希的冲突解决

【免费下载链接】OI-wiki :star2: Wiki of OI / ICPC for everyone. （某大型游戏线上攻略，内含炫酷算术魔法）项目地址: https://gitcode.com/GitHub_Trending/oi/OI-wiki

在信息学竞赛（OI）和编程实践中，哈希算法（Hash Algorithm）是处理字符串匹配、数据去重等问题的高效工具。本文将从基础的字符串哈希原理出发，详细讲解滚动哈希的实现方式，并深入分析哈希冲突的成因与解决方案，帮助读者在实际编程中正确应用哈希技术。

哈希算法基础：从定义到核心思想

哈希算法的本质是将任意长度的输入（如字符串）映射为固定长度的输出值（哈希值），通过比较哈希值快速判断两个输入是否相同。在OI领域，最常用的是多项式哈希（Polynomial Hash），其核心思想是将字符串视为一个进制数，通过基底（base）和模数（mod）将其转化为整数。

多项式哈希的数学定义

对于字符串 ( s = s_1s_2\ldots s_l )，多项式哈希函数定义为： [ f(s) = \sum_{i=1}^{l} s[i] \times b^{l-i} \pmod M ] 其中：

( b ) 为基底（通常取131或233等质数）
( M ) 为模数（通常取 ( 10^9+7 ) 或使用 unsigned long long 自然溢出）
( s[i] ) 为字符的ASCII值

例如，字符串 "abc" 的哈希值计算为： [ \text{hash} = 'a' \times b^2 + 'b' \times b + 'c' ]

哈希值的性质与冲突风险

哈希算法需满足两个基本性质：

确定性：同一输入必须产生同一哈希值
抗碰撞性：不同输入应尽可能产生不同哈希值

但由于哈希值空间有限，不同字符串可能映射到相同哈希值，即哈希冲突。冲突概率可通过生日悖论公式估算： [ p(n,d) \approx 1 - \exp\left(-\frac{n(n-1)}{2d}\right) ] 其中 ( n ) 为字符串数量，( d ) 为哈希值空间大小。当 ( n=10^6 ) 且 ( d=10^9 ) 时，冲突概率高达90%。

滚动哈希：高效计算子串哈希的技术

在处理子串哈希查询时，直接重新计算每个子串的哈希值时间复杂度为 ( O(n^2) )，而滚动哈希（Rolling Hash）技术通过预处理前缀哈希值，可将子串哈希查询优化至 ( O(1) )。

前缀哈希与基底幂次预处理

前缀哈希数组：定义 ( h[i] ) 为前 ( i ) 个字符的哈希值 [ h[i] = h[i-1] \times b + s[i] \pmod M ]
基底幂次数组：定义 ( p[i] ) 为 ( b^i \pmod M )，用于快速计算子串哈希时的基底幂次

子串哈希的计算公式

对于子串 ( s[l..r] )，其哈希值可通过以下公式计算： [ \text{hash}(l..r) = h[r] - h[l-1] \times p[r-l+1] \pmod M ]

代码实现示例（C++）：

const int base = 131;
const int mod = 1e9 + 7;
vector<long long> h, p;

void init(const string& s) {
    int n = s.size();
    h.resize(n + 1); p.resize(n + 1);
    p[0] = 1;
    for (int i = 0; i < n; i++) {
        h[i+1] = (h[i] * base + s[i]) % mod;
        p[i+1] = (p[i] * base) % mod;
    }
}

long long get_hash(int l, int r) { // 1-based [l..r]
    return (h[r] - h[l-1] * p[r - l + 1] % mod + mod) % mod;
}

滚动哈希的应用场景

字符串匹配：计算模式串哈希值后，滑动窗口计算文本串子串哈希值进行比对
最长回文子串：结合正序/逆序哈希值二分查找最长回文
重复子串检测：通过哈希值集合快速判断子串是否重复

哈希冲突的解决方案

尽管多项式哈希在OI中广泛应用，但仍存在冲突风险，需通过技术手段降低冲突概率。

双哈希（Double Hash）

使用两组不同的基底和模数计算哈希值，只有两组哈希值都相同时才认为字符串相等。实践中常用组合：

(base=131, mod=1e9+7) 和 (base=233, mod=1e18+3)
unsigned long long 自然溢出 + 大质数模数

代码示例（双哈希实现）：

struct DoubleHash {
    using ull = unsigned long long;
    ull base1 = 131, mod1 = 212370440130137957LL;
    ull base2 = 233, mod2 = 911382629;
    
    pair<ull, ull> get_hash(const string& s) {
        ull h1 = 0, h2 = 0;
        for (char c : s) {
            h1 = h1 * base1 + c;
            h2 = (h2 * base2 + c) % mod2;
        }
        return {h1, h2};
    }
};

冲突的主动构造与防御

竞赛中存在哈希卡常攻击，通过构造特殊字符串使哈希值碰撞。常见攻击方法包括：

自然溢出攻击：构造长度>64的字符串使 unsigned long long 溢出
模数爆破：利用生日悖论生成大量短字符串碰撞

防御措施：

使用双哈希或三哈希
动态调整基底和模数
对关键应用增加额外校验（如比较原始字符串）

OI中的哈希应用与实战技巧

哈希算法在OI中应用广泛，以下是几个典型场景及优化技巧：

字符串匹配优化

传统KMP算法时间复杂度 ( O(n+m) )，而哈希匹配可实现相同复杂度且代码更简洁：

计算模式串哈希值 ( hash_p )
滑动窗口计算文本串哈希值 ( hash_t )
比较 ( hash_p ) 与 ( hash_t ) 判断匹配

最长公共子串问题

通过二分答案+哈希校验，可在 ( O(n\log n) ) 时间内解决：

二分可能的子串长度 ( k )
对每个字符串提取所有长度为 ( k ) 的子串哈希值
求哈希值交集，存在则说明公共子串存在

实战优化技巧

预处理基底幂次：避免重复计算 ( b^i \mod M )
自然溢出优化：使用 unsigned long long 自动取模（需注意溢出风险）
字符映射：将字符集映射到1开始（如 s[i] - 'a' + 1）避免0值影响

哈希算法的局限性与替代方案

尽管哈希算法高效，但在以下场景中需谨慎使用：

安全性要求高的场景：需使用MD5/SHA等密码学哈希
精确字符串比较：哈希冲突无法完全避免，关键场景需二次校验
多模式匹配：此时AC自动机或后缀自动机更优

总结与学习资源

哈希算法是OI选手必备工具，掌握多项式哈希和滚动哈希技术可显著提升字符串处理效率。推荐通过以下资源深入学习：

官方文档：OI Wiki字符串哈希
代码模板：哈希工具类实现
实战例题：
- CF1200E Compress Words
- 洛谷U461211 字符串哈希

通过合理选择哈希参数、结合双哈希等冲突解决方案，哈希算法将成为你在竞赛中的有力武器。记住：没有绝对安全的哈希，只有适合场景的哈希策略。

【免费下载链接】OI-wiki :star2: Wiki of OI / ICPC for everyone. （某大型游戏线上攻略，内含炫酷算术魔法）项目地址: https://gitcode.com/GitHub_Trending/oi/OI-wiki

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考