哈希表原理与实战指南

最新推荐文章于 2025-12-02 19:18:07 发布

原创最新推荐文章于 2025-12-02 19:18:07 发布 · 312 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#散列表 #哈希算法 #数据结构 #csdn

哈希表的基本概念

哈希表（Hash Table）是一种通过哈希函数将键（Key）映射到存储位置的数据结构，通常用于实现高效的插入、删除和查找操作。其核心思想是将键转换为数组索引，从而直接访问对应位置的数据。

哈希函数的设计

哈希函数负责将任意大小的键映射到固定大小的范围（通常为数组索引）。理想的哈希函数应满足以下条件：

均匀性：键应均匀分布在哈希表中，减少冲突。
确定性：同一键始终映射到同一索引。
高效性：计算复杂度应尽可能低。

常见哈希函数示例：

除法哈希：h(k) = k % m（m为哈希表大小）。
乘法哈希：h(k) = floor(m * (k * A % 1))（A为常数，如0.618）。

冲突解决方法

当不同键映射到同一索引时，需通过冲突解决策略处理：

链地址法（Separate Chaining）

每个哈希表索引位置维护一个链表（或其他容器），存储所有映射到该位置的键值对。
查找时遍历链表，直到匹配键或到达末尾。

开放地址法（Open Addressing）

所有元素直接存储在哈希表中。冲突时，按探测序列（如线性探测、二次探测）寻找下一个空闲位置。
线性探测：h(k, i) = (h(k) + i) % m。
二次探测：h(k, i) = (h(k) + c₁i + c₂i²) % m。

哈希表的性能分析

时间复杂度：理想情况下为$O(1)$，最坏情况下（如所有键冲突）退化为$O(n)$。
负载因子（Load Factor）：定义为$\alpha = n/m$（$n$为元素数，$m$为表大小）。当$\alpha$超过阈值（如0.75）时，需动态扩容（Rehashing）。

动态扩容与Rehashing

当负载因子过高时，哈希表需扩容（通常加倍大小）并重新插入所有元素。步骤包括：

分配新大小的数组。
遍历旧表，对所有键重新应用哈希函数计算新位置。
迁移数据至新表。

代码实现示例（链地址法）

class HashTable:
    def __init__(self, size=10):
        self.size = size
        self.table = [[] for _ in range(size)]
    
    def _hash(self, key):
        return hash(key) % self.size
    
    def insert(self, key, value):
        idx = self._hash(key)
        for item in self.table[idx]:
            if item[0] == key:
                item[1] = value  # 更新现有键
                return
        self.table[idx].append([key, value])  # 新增键值对
    
    def get(self, key):
        idx = self._hash(key)
        for item in self.table[idx]:
            if item[0] == key:
                return item[1]
        raise KeyError(f"Key not found: {key}")