梧桐数据库（WuTongDB）：CBO（Cost-Based Optimizer）基于代价的优化器技术简介

最新推荐文章于 2025-03-22 12:50:02 发布

鲁鲁517

最新推荐文章于 2025-03-22 12:50:02 发布

阅读量1.1k

点赞数 18

分类专栏：梧桐数据库文章标签：梧桐数据库

本文链接：https://blog.youkuaiyun.com/lunan/article/details/142264341

版权

61 篇文章

订阅专栏

CBO（基于代价的优化器，Cost-Based Optimizer）是现代数据库系统中最广泛使用的查询优化器之一。它通过计算执行查询时可能消耗的资源（如CPU、内存、I/O）来选择最优的执行计划，以提高查询性能。

CBO 主要基于以下三个步骤来生成最优查询执行计划：

生成多个执行计划：
对给定的SQL查询，CBO会生成多个可能的执行计划。例如，针对一条包含多个表连接的查询，CBO会考虑不同的连接顺序、连接算法（嵌套循环、哈希连接等）以及是否使用索引。
估算代价：
对于每一个执行计划，CBO都会根据系统的统计信息（如表的大小、数据分布、索引情况等）计算执行计划的代价。代价通常包括以下几个方面：
- I/O代价：指在查询执行过程中读取数据块所需的磁盘操作开销。
- CPU代价：指执行各种操作（如过滤、排序、连接等）所需的计算开销。
- 内存代价：指查询执行时消耗的内存资源开销。
选择最优执行计划：
CBO 选择代价最小的执行计划，并将其作为最终的查询执行计划。

CBO 的主要工作依赖于三个核心组件：

查询重写（Query Rewrite）：
- 查询重写是CBO在生成执行计划前对SQL查询进行优化的一个过程。它通过将SQL语句转换为更高效的等价语句来减少计算量。例如，将OR操作符转换为UNION或合并多个子查询。
执行计划生成（Plan Generation）：
- CBO 生成一系列的候选执行计划。每个执行计划是通过分析不同的表扫描方法、连接策略、索引使用等因素而生成的。例如：
  - 表扫描可以是全表扫描或索引扫描。
  - 连接可以是嵌套循环、哈希连接或合并连接。
代价估算（Cost Estimation）：
- 代价估算是 CBO 的核心。它基于系统统计信息来预测执行查询所需的资源。代价估算包括：
  - 表的行数：决定全表扫描或索引扫描的成本。
  - 数据分布：帮助决定是否需要排序或聚合操作。
  - 索引选择：决定是否通过索引查找减少I/O代价。

CBO的性能和准确性依赖于数据库中的统计信息。统计信息主要包括：

表和列的统计信息：
- 表的行数：指表中行的总数，影响全表扫描和连接操作的代价。
- 列的基数（Cardinality）：指列中不同值的数量，影响查询过滤条件的选择。
- 直方图：反映数据分布情况，帮助CBO评估某些值的选择性。
索引的统计信息：
- 索引的基数：索引覆盖的值的唯一性，影响索引扫描的代价。
- 索引的选择性：影响索引扫描是否比全表扫描更具优势。
系统的硬件资源：
- 数据库系统还会考虑硬件资源的统计信息，例如磁盘的I/O速率、内存的大小、CPU速度等。这些信息会影响代价估算的准确性。

CBO 在评估查询时，会采用多种优化策略：

选择合适的扫描方式：
- 对于小表，可能会选择全表扫描。
- 对于大表，使用索引扫描来减少读取的行数。
连接顺序优化：
- CBO 会根据表大小和索引情况，选择最优的表连接顺序。例如，选择先连接小表，再连接大表，能够减少数据处理量。
选择连接算法：
- CBO 会根据表的大小和内存资源，选择不同的连接算法，如嵌套循环连接（Nested Loop Join）、哈希连接（Hash Join）、排序-合并连接（Sort-Merge Join）等。
并行执行优化：
- CBO 能够识别出哪些查询适合并行执行，并对查询进行并行化处理，从而提高查询性能。

优点：

缺点：

Oracle：Oracle的CBO是最早的、也是最成熟的CBO实现之一，广泛应用于大中型企业数据库系统中。Oracle CBO支持复杂的查询优化，包括并行执行、物化视图、子查询等。
PostgreSQL：PostgreSQL的查询优化器也是基于CBO的，它结合了表、索引的统计信息，生成最优的执行计划，并支持扩展和自定义优化规则。
MySQL（InnoDB引擎）：MySQL的InnoDB存储引擎使用CBO进行查询优化，虽然功能上不如Oracle复杂，但在常规查询场景下也能提供足够高效的执行计划。

CBO 是现代数据库查询优化的核心，通过基于代价的分析，它可以为不同查询生成最优的执行计划，从而显著提高数据库查询的效率。CBO 的效率和精度依赖于数据库中的统计信息，因此定期更新统计信息是保证CBO性能的关键。

产品简介

梧桐数据库（WuTongDB）是基于 Apache HAWQ 打造的一款分布式 OLAP 数据库。产品通过存算分离架构提供高可用、高可靠、高扩展能力，实现了向量化计算引擎提供极速数据分析能力，通过多异构存储关联查询实现湖仓融合能力，可以帮助企业用户轻松构建核心数仓和湖仓一体数据平台。
2023年6月，梧桐数据库（WuTongDB）产品通过信通院可信数据库分布式分析型数据库基础能力测评，在基础能力、运维能力、兼容性、安全性、高可用、高扩展方面获得认可。