哈希表的基本概念
哈希表(Hash Table)是一种通过哈希函数将键(Key)映射到存储位置的数据结构,通常用于实现高效的插入、删除和查找操作。其核心思想是将键转换为数组索引,从而直接访问对应位置的数据。
哈希函数的设计
哈希函数负责将任意大小的键映射到固定大小的范围(通常为数组索引)。理想的哈希函数应满足以下条件:
- 均匀性:键应均匀分布在哈希表中,减少冲突。
- 确定性:同一键始终映射到同一索引。
- 高效性:计算复杂度应尽可能低。
常见哈希函数示例:
- 除法哈希:
h(k) = k % m(m为哈希表大小)。 - 乘法哈希:
h(k) = floor(m * (k * A % 1))(A为常数,如0.618)。
冲突解决方法
当不同键映射到同一索引时,需通过冲突解决策略处理:
链地址法(Separate Chaining)
- 每个哈希表索引位置维护一个链表(或其他容器),存储所有映射到该位置的键值对。
- 查找时遍历链表,直到匹配键或到达末尾。
开放地址法(Open Addressing)
- 所有元素直接存储在哈希表中。冲突时,按探测序列(如线性探测、二次探测)寻找下一个空闲位置。
- 线性探测:
h(k, i) = (h(k) + i) % m。 - 二次探测:
h(k, i) = (h(k) + c₁i + c₂i²) % m。
哈希表的性能分析
- 时间复杂度:理想情况下为$O(1)$,最坏情况下(如所有键冲突)退化为$O(n)$。
- 负载因子(Load Factor):定义为$\alpha = n/m$($n$为元素数,$m$为表大小)。当$\alpha$超过阈值(如0.75)时,需动态扩容(Rehashing)。
动态扩容与Rehashing
当负载因子过高时,哈希表需扩容(通常加倍大小)并重新插入所有元素。步骤包括:
- 分配新大小的数组。
- 遍历旧表,对所有键重新应用哈希函数计算新位置。
- 迁移数据至新表。
代码实现示例(链地址法)
class HashTable:
def __init__(self, size=10):
self.size = size
self.table = [[] for _ in range(size)]
def _hash(self, key):
return hash(key) % self.size
def insert(self, key, value):
idx = self._hash(key)
for item in self.table[idx]:
if item[0] == key:
item[1] = value # 更新现有键
return
self.table[idx].append([key, value]) # 新增键值对
def get(self, key):
idx = self._hash(key)
for item in self.table[idx]:
if item[0] == key:
return item[1]
raise KeyError(f"Key not found: {key}")
应用场景
- 字典实现:如Python的
dict、Java的HashMap。 - 缓存系统:利用$O(1)$查找加速数据访问(如Redis)。
- 去重操作:快速判断元素是否存在(如布隆过滤器的基础)。
注意事项
- 哈希函数选择:需根据数据类型(字符串、整数等)定制,避免热点问题。
- 冲突频率:高冲突率会显著降低性能,需调整负载因子或改进哈希函数。
- 不可变键:若键为可变对象(如列表),修改后可能导致哈希值变化,破坏一致性。
10万+

被折叠的 条评论
为什么被折叠?



