哈希表（散列表）

最新推荐文章于 2024-08-12 10:52:41 发布

原创最新推荐文章于 2024-08-12 10:52:41 发布 · 336 阅读

0 ·

CC 4.0 BY-SA版权

算法专栏收录该内容

20 篇文章

订阅专栏

一,什么是哈希表

由于哈希表一般用数组和链表实现,所以先了解一下数组和链表的基本特征:
数组：采用一段连续的存储单元来存储数据。
对于指定下标的查找，时间复杂度为O(1), 因为对于数组来说,第n个下标的地址为数组首地址+n*数组元素的存储空间,所以查找指定下标的数据,可以通过一次计算获取；
通过给定值进行查找，需要遍历数组，逐一比对给定关键字和数组元素，时间复杂度为O(n),对于一般的插入删除操作，涉及到数组元素的移动，其复杂度为O(n)

链表：采用不连续的存储单元来存储数据,链表元素之间的关系由链表元素中的next指针维护.
对于链表的新增，删除等操作（在找到指定操作位置后），仅需处理结点间的next即可，时间复杂度为O(1)，而查找操作需要遍历链表,复杂度为O(n)
总结来说,数组是查询快速而插入,删除困难,链表则相反.

什么是哈希表

哈希表（Hash table，也叫散列表），是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。

记录的存储位置=f(关键字)

这里的对应关系f称为散列函数，又称为哈希（Hash函数），采用散列技术将记录存储在一块连续的存储空间中，这块连续存储空间称为散列表或哈希表（Hash table）。

这样我们在查询的时候就可以直接根据f(key)来获取value所在的位置,从而实现O(1)的时间复杂度.

但是,这里有个问题,我们都知道,数组的空间大小是有限的,所以必然会出现一种情况,那就是f(k1) == f(k2),即两个不同的key得出的hash值是一样的,这种情况就是哈希冲突

处理冲突的方法

开放定址法

Hi=(H(key)+di) MOD m i=1,2,…,k(k<=m-1)
其中m为表长，di为增量序列
如果di值可能为1,2,3,…m-1，称线性探测再散列。
如果di取值可能为1,-1,2,-2,4,-4,9,-9,16,-16,…kk,-kk(k<=m/2)
称二次探测再散列。
如果di取值可能为伪随机数列。称伪随机探测再散列。
如现在有这样一个哈希表: