Hash Table，Hash Map是怎么来的？

原创于 2020-03-03 22:19:45 发布 · 234 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原教程地址：https://www.youtube.com/watch?v=KyUTuwz_b7Q

Hash Table，Hash Map是怎么来的？

Introduction
- - 问题引入
  - 尝试解决
Hashing Algotithm
Collision Resolution
- - Open Addressing
  - Closed Addressing
Design Hash Functions

Introduction

问题引入

在一个名字数组找名字Ada，需要遍历整个数组，复杂度 O(n) 。
如果我们知道Ada的索引，就可以 O(1) 直接找到Ada。
能不能构建一个函数，输入一个名字，输出得到索引？
这样要是查找一个名字，我们就可以直接算出索引，根本就不需要遍历！
在这里插入图片描述

尝试解决

我们采取这样的办法：

把每个名字的每个字母的ASCII码值加起来，得到一个数值
把这个数值对数组长度取模，得到一个index
把这个名字放到这个数组对应的index位置上

这样不管你要找什么名字，我直接通过计算就能知道它在哪里。搜索的时间复杂度是O(1)。
如果数组里存的是键值对，就类似于我们日常用的哈希表了。显然这里是把一个字符串当成了key。

Hashing Algotithm

把一个key映射到一个内存地址的算法。

对于整数类型的key，可以直接通过把key的值对可用地址的数目n进行取模。
对于字符串类的key，可以把每个字符的ASCII码之和对n取模。
还有一类 Folding Method，把key分成等量的部分，把每个部分计算的值加起来对n取模，比如把电话号码12345678拆成 12 34 56 78。

Collision Resolution

显然有一个问题上面没有提及，如果有多个key计算出来的地址是一样的怎么办？？
显然，要存的东西越多，可用的内存地址越少，越容易出现这种情况。我们用一个指标来衡量这种情况的严重性：
$\frac{要存的东西的总数}{可用内存的数量}$
$L o a d F a c t o r$ 越大，越容易出现冲突。
为了解决这个问题，出现了两类解法：

Open Addressing

叫Open是因为此类方法，每个内存地址对所有的要存的内容是开放的。也就是说，即使我发生冲突了，我可以存到别的地址上。

Linear Probing
如果我发现计算得到的内容地址上已经有值了，我就去找下一个地址，直到找到空地址就存。查找时如果计算出的地址上不是我要的key，我就往下找直到找到我的key。这种方法最差的情况还是会遍历整个数组。
Plus 3 Rehash
每次出现冲突，不停地找后面第三个地址有没有空位。
Quadratic Probing
出现冲突，往后找失败次数的平方个位置。
Double Hashing
出现冲突时，使用Second Hashing Function，得到该key下一次查找的步长。

Closed Addressing

叫Closed是因为此类方法，每个内存地址只对能通过哈希函数得到该地址的key开放。即使我发生冲突了，我也不能去占用别的地址。

Chaining Method
每个数组的位置指向一个链表的头部。出现冲突时，在此处链表的尾部加上要存的内容即可。

Design Hash Functions

尽可能减少冲突
使要存的内容尽量均匀分布在可用内存上
哈希函数要尽量容易计算
要能够处理冲突问题

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。