【数据结构】哈希/散列表


一、哈希表的概念

不经过任何比较,一次直接从表中得到要搜索的元素。 如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系,那么在查找时通过该函数可以很快找到该元素。

哈希方法:

  • 插入元素:
    根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放。
  • 搜索元素:
    对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若
    关键码相等,则搜索成功。

哈希函数:哈希方法中使用的转换函数。

哈希表(HashTable):构造出来的结构。

举个栗子:
存储数据关键字为{1,4,5,6,7,9}的数据使用哈希表,我们设置哈希函数为:关键字%容量。因此在得到每个关键字时对容量取余,得到存储下标,放入哈希表得到以下结构。
这样下次搜素时也只需要对关键字取余找到对应下标就搜到了。

二、哈希冲突

2.1 冲突概念

不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。

例如:在上面的例子中如果在插入关键字为44的值就与4在一个下标,就发生了哈希冲突。

同义词:把具有不同关键码而具有相同哈希地址的数据元素。

2.2 冲突避免

我们哈希表底层数组的容量往往是小于实际要存储的关键字的数量的,这就导致冲突的发生是必然的,但我们能做到尽量的降低冲突发生率。

2.2.1 方式一哈希函数设计

这种方法一般用不到,因为哈希函数一般不由小卡拉米来定制。

满足以下三个条件来设计:

  • 哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有m个地址时,其值域必须在0到m-1
    之间;
  • 哈希函数计算出来的地址能均匀分布在整个空间中;
  • 哈希函数应该比较简单;

常见哈希函数:

  1. 直接定制法:
    取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B
    优点:简单、均匀;
    缺点:需要事先知道关键字的分布情况 ;
    使用场景:适合查找比较小且连续的情况。
  2. 除留余数法:
    设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,
    按照哈希函数:Hash(key) = key% p(p<=m),将关键码转换成哈希地址。
  3. 平方取中法:
    假设关键字为1234,对它平方就是1522756,抽取中间的3位227作为哈希地址。
    使用场景:不知道关键字的分布,而位数又不是很大的情况。
  4. 折叠法:
    折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些),然后将这几部分叠加求和,并按散列表表长,取后几位作为散列地址。
    使用场景:事先不需要知道关键字的分布,适合关键字位数比较多的情况。
  5. 随机数法:
    选择一个随机函数,取关键字的随机函数值为它的哈希地址,即H(key) = random(key),其中random为随机数函数。
    使用场景:应用于关键字长度不等时采用此法。
  6. 数学分析法:
    设有n个d位数,每一位可能有r种不同的符号,这r种不同的符号在各位上出现的频率不一定相同,可能在某
    些位上分布比较均匀,每种符号出现的机会均等,在某些位上分布不均匀只有某几种符号经常出现。可根据
    散列表的大小,选择其中各种符号分布均匀的若干位作为散列地址。
    使用场景:处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布较均
    匀的情况。

2.2.2 方式二负载因子调节

负载因子:就是 哈希表中的元素个数 与 哈希表的长度 的比值。

负载因子与冲突发生率的关系图:

由图可知,负载因子大小与与冲突率呈正相关。
所以我们可以通过降低负载因子来降低冲突率。Java中的负载因子设置的是0.75。

2.3 冲突解决

2.3.1 闭散列

闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存放到冲突位置中的“下一个” 空位置中去。

找下一个位置的两种方法:

  1. 线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。使用这种方式缺点就是产生冲突的数据容易堆积在一块。
    而且采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素会影响其他元素的搜索。线性探测采用标记的伪删除法来删除一个元素。
  2. 二次探测:在设计一个函数来表示下一个位置,找下一个空位置的方法为:Hi = (H0 + i^2 )% m, 或者:Hi = ( H0 - i^2 )% m。其中:i = 1,2,3…, 是通过散列函数Hash(x)对元素的关键码 key 进行计算得到的位置,m是表的大小。

2.3.2 开散列(哈希桶)

开散列法:又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。就相当于使用数组+链表的形式。

冲突严重时的解决方式:

  1. 每个桶的背后是另一个哈希表;
  2. 每个桶的背后是一棵搜索树(Java中的HashMap集合类就是每个桶后面是一颗红黑树)。

2.4 性能分析

虽然哈希表一直在和冲突做斗争,但在实际使用过程中,我们认为哈希表的冲突率是不高的,冲突个数是可控的,也就是每个桶中的链表的长度是一个常数 ,所以,通常意义下,我们认为哈希表的插入/删除/查找时间复杂度是O(1) 。

三、实现简单hash桶

我们自己实现一个简单的hash桶即HashBuck。
先写key与value都是int 类型,再类比写出泛型参数类型。

3.1 内部类与成员变量

hash桶的结构是数组加链表的形式,

  • 所以我们内部类要构造一个链表,
  • 成员要用实现链表数组,我们在这初始化长度为10。
  • 在使用一个usedSize变量记录一下节点的个数,以便调控负载因子。
  • 使用一个常量来表示负载因子最大值
	//内部类,链表
    static class Node {
   
        public int key;
        public int value;
        public Node next;

        public Node(int key, int value) {
   
            this.key = key;
            this.value = value;
        }

    }
    //初始数组
    public Node[] array = new Node[10];
    //使用长度
    public int usedSize;
    //负载因子最大值
    private static final double DEFAULT_LOAD_FACTOR = 0.75f;

泛型参数版本:

	static class Node <K,V>{
   
        public K key;
        public V value;
        Node<K,V> next;

        public Node(K key, V value) {
   
            this.key = key;
            this.value = value;
        }
    }
    //初始数组
    public Node<K,V>[] array =  (Node<K,V>[])new Node[10];
    //使用长度
    public int usedSize;
    //负载因子最大值
    private static final double DEFAULT_LOAD_FACTOR = 0.75f;

3.2 插入

实现put方法,我们插入节点的时候,

  • 先使用hash函数(key % array.length)找到当前节点该插入的下标。
  • 然后再遍历这里面的节点,如果其中关键字key已经存在,我们就更新一下value即可;
  • 没有key关键字的节点,我们就尾插进当前节点,
  • 要判断当前是否是空,所以我们使用prev,来指向cur的前一个节点,如果prev为空,就说明当前的下标中没有节点。
  • 然后节点数量usedSize加1。
  • 我们节点个数加一之后,我们就要考虑负载因子是否超了,如果负载因子超了,就扩容。
    //插入元素
    public void put(int key, int value) {
   
        int index = key % array.length;
        Node cur = array[index];
        Node prev = cur;
        while(cur != null) {
   
            //关键字key已经存在
            if(cur.key == key) {
   
                cur.value = value;
                return;
            }
            prev = cur;
            cur = cur.next;
        }
        //关键字key不存在
        if(prev =
评论 157
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鸽鸽程序猿

蟹蟹大哥

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值