Hash Table,Hash Map是怎么来的?

原教程地址:https://www.youtube.com/watch?v=KyUTuwz_b7Q

Introduction

问题引入

在一个名字数组找名字Ada,需要遍历整个数组,复杂度 O(n)
如果我们知道Ada的索引,就可以 O(1) 直接找到Ada。
能不能构建一个函数,输入一个名字,输出得到索引?
这样要是查找一个名字,我们就可以直接算出索引,根本就不需要遍历!
在这里插入图片描述

尝试解决

我们采取这样的办法:

  • 把每个名字的每个字母的ASCII码值加起来,得到一个数值
  • 把这个数值对数组长度取模,得到一个index
  • 把这个名字放到这个数组对应的index位置上
    在这里插入图片描述

这样不管你要找什么名字,我直接通过计算就能知道它在哪里。搜索的时间复杂度是O(1)
如果数组里存的是键值对,就类似于我们日常用的哈希表了。显然这里是把一个字符串当成了key。

Hashing Algotithm

把一个key映射到一个内存地址的算法。

  • 对于整数类型的key,可以直接通过把key的值对可用地址的数目n进行取模。
  • 对于字符串类的key,可以把每个字符的ASCII码之和对n取模。
  • 还有一类 Folding Method,把key分成等量的部分,把每个部分计算的值加起来对n取模,比如把电话号码12345678拆成 12 34 56 78。

Collision Resolution

显然有一个问题上面没有提及,如果有多个key计算出来的地址是一样的怎么办??
显然,要存的东西越多,可用的内存地址越少,越容易出现这种情况。我们用一个指标来衡量这种情况的严重性:
L o a d F a c t o r = 要 存 的 东 西 的 总 数 可 用 内 存 的 数 量 Load Factor = \frac{要存的东西的总数}{可用内存的数量} LoadFactor=西
L o a d F a c t o r Load Factor LoadFactor越大,越容易出现冲突。
为了解决这个问题,出现了两类解法:

Open Addressing

叫Open是因为此类方法,每个内存地址对所有的要存的内容是开放的。也就是说,即使我发生冲突了,我可以存到别的地址上。

  • Linear Probing
    如果我发现计算得到的内容地址上已经有值了,我就去找下一个地址,直到找到空地址就存。查找时如果计算出的地址上不是我要的key,我就往下找直到找到我的key。这种方法最差的情况还是会遍历整个数组。
  • Plus 3 Rehash
    每次出现冲突,不停地找后面第三个地址有没有空位。
  • Quadratic Probing
    出现冲突,往后找失败次数的平方个位置。
  • Double Hashing
    出现冲突时,使用Second Hashing Function,得到该key下一次查找的步长。

Closed Addressing

叫Closed是因为此类方法,每个内存地址只对能通过哈希函数得到该地址的key开放。即使我发生冲突了,我也不能去占用别的地址。

  • Chaining Method
    每个数组的位置指向一个链表的头部。出现冲突时,在此处链表的尾部加上要存的内容即可。
    在这里插入图片描述

Design Hash Functions

  • 尽可能减少冲突
  • 使要存的内容尽量均匀分布在可用内存上
  • 哈希函数要尽量容易计算
  • 要能够处理冲突问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值