从这一节课开始就进入了物理优化的部分。所谓物理优化就是通过计算代价的方式来对多种可能的方法进行筛选,优胜劣汰。那么什么是代价呢?代价就是一个执行计划在执行过程中所带来的消耗。既然是数据库,数据都保存在磁盘上,那么就免不了读取磁盘带来的消耗,这种消耗可以称为 IO 代价。在 SQL 语句中需要执行各种表之间做逻辑运算,看到“运算”两个字就很容易想到 CPU,因为 CPU 是中央处理单元,所以执行计划还要考虑 CPU 代价。由于分布式计划(或者并行执行计划)对数据进行了切分,导致在执行计划之间需要传递数据,因此还需要考虑通信代价。
那么问题来了,这些代价如何计算呢?当然可以采用最简单的“拍脑袋大法”,比如在路径选择的时候我们就喜欢记住这样的模糊的概念:通过建索引的方式可以提高查询速度。基于此,在打算提高查询性能的时候,一拍脑袋就在一个表上建上百个索引,美其名曰用空间换时间,除了更新和插入的速度慢一点,简直没毛病。
但优化器的代价模型不满足于这种含糊其辞式概念,需要做“精确”的计算,于是就需要如下几个方面的信息。
- 数据到底是什么情况?也就是说数据的分布情况,比如它占了多少个页面,有多少个元组,元组的宽度是多少,每一列里有没有 NULL 值,有没有那种重复度特别高的列(比如性别)等。
- 如何量化 IO 和 CPU 的消耗?我们都知道“距离 = 速度 × 时间”,数据分布就好比是速度,那么量化的 IO 和 CPU 消耗就好像是时间,数据分布和量化的 IO 和 CPU 消耗相乘,才能获得代价。
- 执行计划是如何执行的?假设我们知道读取一个页面需要的
本文深入探讨数据库统计信息在物理优化中的作用,包括数据分布、IO和CPU代价的量化以及执行计划的影响。重点介绍了PostgreSQL的统计信息类型,如高频值、直方图、相关系数,以及多列统计信息。通过统计分析,优化器能够更精确地计算查询代价,提升SQL执行效率。
订阅专栏 解锁全文
2100

被折叠的 条评论
为什么被折叠?



