散列结构的查找:
散列函数:一 个把查找表中的关键字映射成该关键字对应的地址的函数,记为Hash(key)=Address。
冲突:散列函数可能会把两个或两个以上的关键字映射到同一地址。
散列表:根据关键字直接进行访问的数据结构,对散列表的查找的时间复杂度为O(1)。
散列函数的构造:
要求:
①散列函数的定义域必须包括所有的要储存的关键字,而值域范围依赖于散列表的大小或地址范围。
②散列函数计算出来的地址应该等概率,均匀的分布在整个地址空间,从而减少冲突的发生。
③散列函数应尽可能简单,能够在较短时间内计算出关键字的地址。
方法:
①直接定址法
取关键字的线性函数值作为地址。
H(key)=a*key+b
②除留余数法
取一个不大于散列表长,但接近它的数字p
H(key)=key % p
③数字分析法
r进制数对于r个数来说,已知的关键字序列其中r个数出现的频率不同,
所以应该选择分布较为均匀的若干位作为散列地址。
④平方取中法
取关键字的平方数的中间几位作为散列地址,
适用于关键字的每一位都分布不均匀或都小于散列地址所需的位数
⑤折叠法
将关键字分割成位数相同的几部分,然后取这几部分的叠加和作为散列地址。
适用于关键字位数很多,且每一位关键字数字大小分布均匀。
处理冲突的办法:
开放定址法:
定义:可存放新表项的空闲地址既向它的同义词表项开放, 又向它的非同义词表项开放。
Hi=(H(key)+di) % m
①线性探测法:
增量序列di=0,1,2,3,…
容易导致大量的元素在相邻的散列地址上“堆积”。
②平方探测法:
增量序列di=0的平方,1的平方,- 的1的平方,2的平方…
不能探测散列表中所有单元,但是至少能探测到一半的单元。
③再散列法:
增量序列= i *H2(key)
最多经过m-1次探测就能遍历表中所有位置,回到H0位置。
④伪随机数法:
增量序列= 伪随机数序列
拉链法:
定义: 避免冲突,将同义词存储在同一个线性链表中。
适用于经常插入删除的情况。
散列表的查找效率:
散列函数的查找效率取决于三个因素:散列函数、处理冲突的方法和装填因子。
装填因子:散列表的装填因子一般记为α,定义为一个表的装满程度,即: 表中记录数n / 散列表长度m
装填因子越大,发生冲突的可能性越大。