对Hash的一些总结

置顶 kksilu

已于 2022-09-19 11:31:55 修改

阅读量755

点赞数

分类专栏：数据结构与算法文章标签：数据结构算法链表

于 2021-08-27 11:51:52 首次发布

本文链接：https://blog.youkuaiyun.com/qq_40337086/article/details/113563269

版权

24 篇文章

订阅专栏

哈希地址的计算方法

若已知整个哈希表的最大长度 m，可以取一个不大于 m 的数 p，然后对该关键字 key 做取余运算，
即：

H（key）= key % p

在此方法中，对于 p 的取值非常重要，由经验得知 p 应该为<=m 的最大质数，因为质数可保证冲突的可能性低一些

H（key）=a * key + b

缺点：hash冲突严重

如果关键字由多位字符或者数字组成，就可以考虑抽取其中某几位作为该关键字对应的哈希地址，在取法上尽量选择变化较多的位，避免冲突发生

对关键字做平方操作，取中间得几位作为哈希地址。

例如关键字序列为{421，423，436}，对各个关键字进行平方后的结果为{177241，178929，190096}，则可以取中间的两位{72，89，00}作为其哈希地址。

取关键字的一个随机函数值作为它的哈希地址，即：H（key）=random（key），此方法适用于关键字长度不等的情况。

注意：这里的随机函数其实是伪随机函数，随机函数是即使每次给定的 key 相同，但是 H（key）都是不同；而伪随机函数正好相反，每个 key 都对应的是固定的 H（key）。

对于无法避免的冲突，需要采取适当的措施去处理。

通常用的处理冲突的方法有以下几种：

核心思想：如果出现散列冲突，就重新探测一个空闲位置，将其插入。

形如： H（key）=（H（key）+ d）MOD m（其中 m 为哈希表的表长，d 为一个增量）
主要有两种方式：

线性探测法：d=1，2，3，…，m-1
线性探测法其实存在很大问题。当散列表中插入的数据越来越多时，散列冲突发生的可能性就会越来越大，空闲位置会越来越少，线性探测的时间就会越来越久。
极端情况下，我们可能需要探测整个散列表，所以最坏情况下的时间复杂度为 O(n)。同理，在删除和查找时，也有可能会线性探测整张散列表，才能找到要查找或者删除的数据。
二次探测法：d=1^2 ,- 1 ^ 2，2 ^2，-2 ^2，3 ^2，…
比线性探测冲突的可能性小很多

核心思想：将所有产生冲突的关键字所对应的数据全部存储在同一个线性链表中.

插入数据：O(1)
当插入的时候，我们需要通过散列函数计算出对应的散列槽位，将其插入到对应的链表中即可，所以插入的时间复杂度为O(1)。

查找或删除数据：O(k)
当查找、删除一个元素时，通过散列函数计算对应的槽，然后遍历链表找到数据。对于散列比较均匀的散列函数，链表的节点个数k=n/m(其中 n 表示散列表中数据的个数，m 表示散列表中槽的个数)

当产生冲突时，使用另一个哈希函数计算，直到冲突不再发生。

可以从内存利用率、装载因子、使用场景、cpu缓存、序列化等方面进行比较

内存空间利用率： 链表法对内存的利用率比开放寻址法要高。

链表结点可以在需要的时候再创建，而开放寻址法必须事先申请好数组空间。
在开放寻址法中，所有的数据都存储在一个数组中，比起链表法来说，冲突的代价更高。所以，使用开放寻址法解决冲突的散列表，装载因子的上限不能太大。这也导致这种方法比链表法更浪费内存空间。
链表因为要存储指针，所以对于比较小的对象的存储，是比较消耗内存的，还有可能会让内存的消耗翻倍。当然，如果我们存储的是大对象，也就是说要存储的对象的大小远远大于一个指针的大小（4 个字节或者 8 个字节），那链表中指针的内存消耗在大对象面前就可以忽略了。

装载因子
链表法比起开放寻址法，对大装载因子的容忍度更高。