数据结构与算法 / 散列表（HashTable）

最新推荐文章于 2025-07-23 20:03:42 发布

原创最新推荐文章于 2025-07-23 20:03:42 发布 · 256 阅读

0 ·

CC 4.0 BY-SA版权

数据结构与算法专栏收录该内容

33 篇文章

订阅专栏

本文深入探讨了散列表的工作原理，包括散列函数设计、冲突解决策略如开放寻址法和链表法，以及装载因子对性能的影响。此外，还讨论了散列表在Office Word拼写检查和URL访问统计等实际场景中的应用。

一、散列思想

通过散列函数通过 Key 值计算得出数组下标，然后利用数组支持下标随机访问的特性，在时间复杂度为O(1)的情况下找到所需要的信息。

              散列函数

       Key -------------> 散列值（哈希值）

            （哈希函数）

二、散列函数

顾名思义，其是一个函数，函数原型大概如下：

        size_t hash(key);

要求，

1、散列值是非负整数。

2、若 key1 = key2，则 hash(key1) == hash(key2) 。

3、若 key1 != key2，则 hash(key1) != hash(key2) 。

设计原则，

1、散列函数的设计不能太复杂，否则会消耗很多计算时间，简介影响散列表的性能。

2、散列表要尽可能的随机均匀分布。

拓展，哈希算法：MD5、SHA、CRC。

三、散列冲突

定义：当 key1 != key2 时，hash(key1) == hash(key2) 。

解决办法：

1、开放寻址法

定义：当出现散列冲突时，在数组中重新探测一个空闲位置，将数据插入到该位置中。

（1）线性探测（Linear Probing）

a、冲突之后，从当前位置依次向后查找（步长为1），直到找到空闲位置将数据插入到该位置。

b、上述操作之后没有发现空闲位置，则从数组的起始位置开始查找空闲位置。

（2）二次探测

与线性探测类似，唯一的不同点，线性探测探测步长为1，而二次探测的探测步长是当前步长的2次方。

（3）双重散列

存在多个散列函数，当其中一个函数出现了散列冲突，则使用第2个散列函数，依次类推，直到找到不存在散列冲突位置。

应用场景：数据量、装载因子较小。

2、链表法（常用）

在散列表中每一项不再存放数据，而是存放一个链表的首地址，该链表存放与该散列值相同的数据。时间复杂度就是这些链表的长度，假设为k，时间复杂度为 O(k) 。

应用场景：数据量较大，存储对象较大，而且可使用红黑树代替链表。

四、装载因子（load factor）

装载因子 = 填入表中的元素个数 / 散列表的长度。

装载因子越大，则空闲位置越少，冲突越多，散列表的性能就越低，时间复杂度最坏情况从 O(1) 降到 O(n) 。

当装载因子过大时，需要动态扩容，时间复杂度为O(n)。当装载因子过小时，需要动态缩容，时间复杂度为O(n)。上述操作如果对于数据量较小时耗时不是很明显，但是对于数据量很大的情况，比如1个G，那么插值的时间就很漫长，因为要将1G的数据迁移过来。所以为了避免上述情况的发生，可以将迁移数据的情况分散在之后的每一个插入数据的过程中，这样时间复杂度就变成了O(1)。在查找的情况下，先去旧的散列表中查找，没有发现则到新的散列表中查找，同理缩容。