思维导图:
第9章: 关系查询处理和查询优化
概述
- 本章探讨关系数据库的查询处理和查询优化。
- 目的:让读者了解查询处理的基本步骤和查询优化的概念、方法和技术。
- 查询优化分为代数优化(逻辑优化)和物理优化(非代数优化)。
9.1 关系数据库系统的查询处理
- 定义:查询处理是将用户的查询语句转换为高效执行计划的过程。
9.1.1 查询处理步骤
-
查询分析
- 包括查询语句的扫描、词法分析和语法分析。
- 识别SQL关键字、属性名、关系名等。
- 进行语法检查,确认符合SQL语法。
-
查询检查
- 语义检查:确保语句中的数据库对象在数据字典中有定义,并有效。
- 检查用户权限和完整性约束。
- 将SQL查询语句转换为关系代数表达式。
-
查询优化
- 存在多种执行策略和算法。
- 优化分为代数优化(改变操作的次序和组合)和物理优化(选择存取路径和操作算法)。
- 优化策略可以是基于规则、代价或语义的。
-
查询执行
- 根据优化器生成的策略制定执行计划。
- 代码生成器创建执行查询计划的代码。
- 执行查询并返回结果。
9.1.2 实现查询操作的算法示例
这一节介绍了选择操作和连接操作的实现算法,主要关注于算法思想。虽然每种操作都有多种执行算法,但这里仅集中介绍最主要的几个。
1. 选择操作的实现
- 简单全表扫描算法
- 使用最少的内存(至少1块)。
- 适用于小规模表,但效率低下当选择率低且表规模大。
- 索引扫描算法
- 适用于选择条件中的属性有索引(如B+树或哈希索引)。
- 效率优于全表扫描,尤其当选择率低。
- 但在高选择率或均匀分布元组情况下,性能不如全表扫描。
2. 连接操作的实现
- 嵌套循环算法
- 简单且通用,适用于各种连接操作。
- 对外层循环表的每个元组,检索内层循环表的每个元组。
- 排序-合并算法
- 特别适用于已排序表的等值连接。
- 如果表未排序,需加上排序时间。
- 索引连接算法
- 适用于已在连接属性上建立索引的情况。
- 对于每个外表元组,通过索引找到匹配的内表元组。
- 哈希连接算法
- 使用相同哈希函数对连接属性进行散列。
- 适用于等值连接,分为划分阶段和试探阶段。
总结:
重点:
- 选择操作和连接操作的实现算法:这是数据库查询处理的核心部分,特别关注选择(Selection)和连接(Join)操作的算法。
- 算法类型和应用场景:
- 选择操作:全表扫描和索引扫描,理解它们的适用情况和性能差异。
- 连接操作:嵌套循环、排序-合并、索引连接和哈希连接,了解每种算法的基本原理及最佳应用场景。
难点:
- 理解不同算法的适用性:每种算法都有其适用的特定场景,理解这些场景对于选择最优算法至关重要。
- 算法的性能分析:理解不同算法在不同数据集和查询条件下的性能差异,以及为什么某些算法在特定条件下表现更优。
易错点:
- 误解算法适用场景:例如,可能错误地认为索引扫描总是优于全表扫描,而忽略了在高选择率或数据分布均匀的情况下全表扫描可能更高效。
- 混淆不同连接算法的特点:例如,可能将排序-合并算法与嵌套循环算法的应用场景混淆,从而在实际应用中选择了不太适合的算法。
- 对算法原理的理解不够深入:可能对算法的内部工作原理理解不够深入,导致在实际应用中无法准确判断最佳选择。