第七章 查找
1. 顺序查找的性能分析
空间复杂度:一个辅助空间O(1)
时间复杂度:O(n)
平均查找长度:查找成功时的平均查找长度
设表中各记录查找概率相等
ASL=(1+2+ ... +n)/n =(n+1)/2
查找不成功时的平均查找长度:ASL=n+1
顺序查找算法的特点
优点:算法简单,对表结构无任何要求,既适用于顺序结构,也适用于链式结构,无论记录是否按关键字有序均可应用。
缺点:平均查找长度较大,查找效率较低
当n很大时,不宜采用顺序查找
2. 折半查找性能分析
具有n个结点的折半查找判定树的深度为
平均查找长度: ASL≈log2(n+1)+1
折半查找算法的优缺点
优点:比较次数少,查找速度快
缺点:要求表有序,且顺序存储,记录按关键字递增有序
适用:不经常变动且查找频繁的有序表
3. 分块查找(索引顺序查找):块内无序,块间有序
每个子块中的关键字都比后一块中的关键字小(但子表内部未必有序)
4. 二叉排序树
5. 中序遍历二叉排序树后:得到一个关键字递增的有序序列
6. 不同插入次序的序列生成不同形态的二叉排序树
7. 二叉排序树的平均查找长度ASL与二叉排序树的形态有关,二叉排序树的各分支越均衡,树的深度越浅,其平均查找长度ASL越小。
8. 二叉排序树的查找性能分析
9. 平衡二叉树(AVL树):任一结点的平衡因子只能取:-1、0 或 1
10. 对于一棵有n个结点的AVL树,其高度保持在O(log2n)数量级,ASL也保持在O(log2n)量级。
11. 最小不平衡子树:在平衡二叉树的构造过程中,以距离插入结点最近的、且平衡因子的绝对值大于1的结点为根的子树。
12. 重要结论
(1)当平衡的二叉排序树因插入结点而失去平衡时,仅需对最小不平衡子树进行平衡处理即可。
(2)平衡处理的关键是识别不平衡树是AB型还是ABC型。
(3)由于经过旋转处理后的子树深度和插入之前相同,因而不影响插入路径上所有祖先结点的平衡。
13. B-树:m阶;
树中每个结点至多有m棵子树;
若根结点不是叶子结点,则至少有两棵子树;
除根之外的所有非终端结点至少有 m/2棵子树;
所有非终端结点最多有m-1个关键字
14. B-树的特点:平衡、有序、多路
15. B-树的查找、插入、删除。
16. B+树:
每个叶子结点中含有 n 个关键字和n 个指向记录的指针;
所有叶子结点彼此相链接构成一个有序链表,
其头指针指向含最小关键字的结点;
每个非叶结点中的关键字Ki即为其相应指针Ai所指子树中关键字的最大值;
所有叶子结点都处在同一层次上;
每个叶子结点中关键字的个数均介于 m/2和 m 之间。
17. 散列表的基本思想:在记录的存储地址和它的关键字之间建立一个确定的对应关系;这样,不经过比较,一次存取就能得到所查元素。
查找速度极快O(1),查找效率与元素个数n无关
18. 散列查找又称哈希查找,利用散列函数进行查找的过程
19. 冲突是不可能避免的
20. 散列函数的构造方法:数字分析法;平方取中法;折叠法;除留余数法(最常用)。
21. 选取散列函数应考虑以下因素:
散列表的长度(散列地址范围);关键字的长度;
关键字的分布情况;计算散列函数所需的时间;
记录的查找频率。
22. 处理冲突的方法:开放定址法;再散列法;链地址法;建立一个公共溢出区
23. 开放定址法分类:
线性探测再散列: di =1,2,3,…,m-1
二次探测再散列: di =1²,-1²,2²,-2²,3²,…,±k²(km/2)
伪随机探测再散列: di =伪随机数序列
24. 链地址法求ASL(成功)、ASL(失败):
25. 哈希表查找的平均查找长度实际上并不等于零
26. 于冲突的产生,使得哈希表的查找过程仍然要进行比较(理想状态下不需要比较,实际上一般需要比较),仍然要以平均查找长度ASL来衡量。
27. 决定哈希表查找的ASL的因素:
(1)选用的哈希函数;
(2)选用的处理冲突的方法;
(3)哈希表饱和的程度,装载因子α=n/m 值的大小(n—记录数,m—表的长度) α越小,发生冲突的可能性越小;反之越大。
28. 一般情况下,可以认为选用的哈希函数是“均匀”的,则在讨论ASL时,可以不考虑因素(1),因此,哈希表的ASL是处理冲突方法和装载因子的函数。