散列是一种用于以常数平均时间执行插入、删除和查找的技术。例如findmin、findmax和以线性时间将排过序的整个表进行打印的操作都是散列锁不支持的。
- 理想的散列表数据结构只不过是一个包含一些项的具有固定大小的数组。
- 我们把表的大小记作TableSize,表从0~TableSize-1变化。
- 每个关键字被映射到从0到TableSize-1这个范围中的某个数,并且被放到适当的单元中,这个映射叫散列函数。
散列函数:
- 如果输入的关键字是整数,则一般合理的方法就是直接返回Key mod TableSize,除非Key碰巧具有某些不合乎需要的性质
- 通常输入的关键字是字符串,一种选择方案是把字符串中的字符的ASCII码(或Unicode码)值加起来。
PS:当两个关键字散列到同一个值的时候(冲突),应该做什么?
解决冲突最简单的2种方法:分离链接法,开放定址法
1. 分离链接法:
将散列到同一个值的所有元素保留到一个表中。(可以使用标准库表实现)
散列表存储一个链表数组,新元素插入到链表的前端,如果允许插入重复的元素,需要流出一个额外的域,这个域当出现匹配事件时,增加1。通常这种散列表的装填因子为1。
2. 探测散列表(开放定址法):
不使用分离链接法的散列表装填因子一般要低于0.5,h(x)=(hash(x)+f(i))mod TableSize
2-1 线性探测法:
在线性探测法总,函数f是i的线性函数,一般f(i)=i。这相当于相机探测逐个单元(必要时可以回绕)以查出一个空单元。
线性探测法插入和不成功的查找大约1/2(1+1/(1-a)(1-a)),成功查找1/2(1+1/(1-a)),其中a是装填因子
2-2 平方探测法:
平方探测法是消除线性探测中一次聚集问题的冲突解决方法平方探测就是冲突函数为二次的探测方法。流行的选择f(i)=i*i
如果使用平方探测法,且表的大小是素数,那么当表至少有一半是空的时候,总能够插入一个新的元素
2-3 双散列:
双散列的流行选择是f(i)=i*hash2(x)
3. 再散列:
建立另一个大约两倍大小的表而且使用一个相关的新散列函数,扫描整个原始散列表,计算每个(未删除)元素的新散列值并将其插入到新表中
在散列可以用平方探测以多种方法实现:
- 只要表满到一半就再散列
- 只有当插入失败才再散列
- 当散列表达到某个装填因子时再散列