1.线性探测
- 负载系数:元素个数/表格大小
- 当hash函数计算出某个元素的位置时,若产生冲突,循环往下一一寻找(到了尾部,就绕回首部)
- 元素删除一般采用惰性删除,这是因为hashtable中的每一个元素不仅表述自己,也关系到其他元素的排列
- 存在一次聚集问题(primary clustering)
2. 二次探测(平方探测)
- 目的是用来解决一次聚集问题
- 解决冲突的方程F(i)=i^2。整体过程为,先用hash函数计算出位置H,若冲突则查看H+F(i)的位置,直到找到合适位置存放数据
- 如果将表格大小设置为质数,而且永远保持负载系数小于0.5,可以确定每次探测次数不超过2
- 二次探测可以消除一次聚集问题,但是会导致二次聚集
3.开链(分离链接法)separate chaining
- STL hashtable 所采用的方法
- 将表格内的元素称为“桶”,其不在只代表一个元素,而是一桶节点
- 结构如下图,表格中存储的是指向桶的指针,而真正的桶的结构是一个单向链表
3.1节点结构
template <class Value>
struct __hashtable_node
{
__hashtable_node* next;
Value val;
}
3.2 迭代器结构
- 迭代器类型为forward Iterator
- 包含两个数据成员,迭代器当前指向的节点 __hashtable_node* cur 和 用于桶间跳转的 hashtable* ht
重载前置++
3.3 hashtable结构
-
桶的聚合体使用vector存储,可动态扩展,其中存储的是
节点指针类型
-
三个函数对象:
- hasher hash : hash函数
- key_equal equals : 判断相等
- ExtractKey get_key : 提取key值
-
两个数据成员:
- vector<node* ,Alloc> buckets;
- size_type num_elements;
-
STL以质数来设计表格大小,先将28个质数计算好,以备后续用来查询“最接近某数并大于某数”的质数,主要调用lowe_bound函数
-
初始化构造
- 查询,获得合适的桶数N
- 调用vector reserve (使得vector的容量至少为N)
- 插入N个空指针
- 置元素个数为0
3.4 元素插入与结构重整(以不可重复为例)
- 调用
resize
判断是否需要重建表格,如需则扩建 - 调用
insert_unique_noresize
进行节点插入
3.5 resize
- STL中的要求:每个桶的容量与桶的个数,即vector的长度相同
- 判断是否重建通过比较
元素个数
和buckets.size()
比较,若大,则开始重建;否则直接返回
重建过程:
- 新的size n=next_size(num_elements_hint);
- 创建大小为n的vector tmp
- 对每一个桶内的元素,重新映射,确定新的位置并移动,其过程如下图所示
- 最后对调两个vector 即
buckets.swap(tmp)