第12课：统计信息

最新推荐文章于 2025-09-17 08:35:32 发布

shujiezhang

最新推荐文章于 2025-09-17 08:35:32 发布

阅读量377

点赞数

CC 4.0 BY-SA版权

分类专栏： PostgreSQL 优化器入门文章标签：数据库优化器查询优化数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/shujiezhang/article/details/108729267

PostgreSQL 优化器入门专栏收录该内容

26 篇文章 ¥39.90 ¥99.00

订阅专栏

本文深入探讨数据库统计信息在物理优化中的作用，包括数据分布、IO和CPU代价的量化以及执行计划的影响。重点介绍了PostgreSQL的统计信息类型，如高频值、直方图、相关系数，以及多列统计信息。通过统计分析，优化器能够更精确地计算查询代价，提升SQL执行效率。

从这一节课开始就进入了物理优化的部分。所谓物理优化就是通过计算代价的方式来对多种可能的方法进行筛选，优胜劣汰。那么什么是代价呢？代价就是一个执行计划在执行过程中所带来的消耗。既然是数据库，数据都保存在磁盘上，那么就免不了读取磁盘带来的消耗，这种消耗可以称为 IO 代价。在 SQL 语句中需要执行各种表之间做逻辑运算，看到“运算”两个字就很容易想到 CPU，因为 CPU 是中央处理单元，所以执行计划还要考虑 CPU 代价。由于分布式计划（或者并行执行计划）对数据进行了切分，导致在执行计划之间需要传递数据，因此还需要考虑通信代价。

那么问题来了，这些代价如何计算呢？当然可以采用最简单的“拍脑袋大法”，比如在路径选择的时候我们就喜欢记住这样的模糊的概念：通过建索引的方式可以提高查询速度。基于此，在打算提高查询性能的时候，一拍脑袋就在一个表上建上百个索引，美其名曰用空间换时间，除了更新和插入的速度慢一点，简直没毛病。

但优化器的代价模型不满足于这种含糊其辞式概念，需要做“精确”的计算，于是就需要如下几个方面的信息。

数据到底是什么情况？也就是说数据的分布情况，比如它占了多少个页面，有多少个元组，元组的宽度是多少，每一列里有没有 NULL 值，有没有那种重复度特别高的列（比如性别）等。
如何量化 IO 和 CPU 的消耗？我们都知道“距离 = 速度 × 时间”，数据分布就好比是速度，那么量化的 IO 和 CPU 消耗就好像是时间，数据分布和量化的 IO 和 CPU 消耗相乘，才能获得代价。
执行计划是如何执行的？假设我们知道读取一个页面需要的

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。