POSTGRESQL analyze table 到底做了什么与扩展统计

最新推荐文章于 2025-05-04 10:59:06 发布

原创最新推荐文章于 2025-05-04 10:59:06 发布 · 2.3k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #python #java #大数据 #数据分析

本文详细介绍了PostgreSQL中ANALYZE命令的作用，如何收集表状态以提升查询效率，包括自动分析、列选择和pg_statistic系统。重点讲解了统计信息的收集、直方图分析及如何针对特定场景创建扩展统计信息。

PostgreSQL 中对表的状态是有单独的命令来进行状态的收集的，到底怎么对表来进行状态的收集，并且都做了什么，我们怎么来依靠这些信息来对查询进行有益的帮助。这些都将在这篇文章里面探讨。

首先我们对PG12 中，关于Analyze 的注释来仔细的阅读一遍

ANALYZE collects statistics about the contents of tables in the database, and stores the results in the pg_statistic system catalog. Subsequently, the query planner uses these statistics to help determine the most efficient execution plans for queries.

Without a table_and_columns list, ANALYZE processes every table and materialized view in the current database that the current user has permission to analyze. With a list, ANALYZE processes only those table(s). It is further possible to give a list of column names for a table, in which case only the statistics for those columns are collected.

分析收集数据库中表中关于内容的状态，并将结果存储到pg_statistic 系统目录中，随后查询执行计划的工作中会利用这些数据来帮助查询更有效率的执行，节省查询时间。Analyze命令对于当前数据库中的每一个表或者物化视图进行分析, 前提是操作的用户必须具有这些表的权限,或者是这个数据库的OWNER,或SUPERUSER. 进一步讲,对于表中的某些列进行状态信息的收集.

并且对于表的分析,中外部的表也是被支持的,但也要看你的外部的表是否支持analyzed命令,部分不支持analyze的外部数据的封装器. 在postgresql 默认的设置中, autovacuum 进程,会自动去分析表,当然您也可以根据ORACLE的经验,来对表定期的进行analyze 命令的执行,来收集表中的数据变化后的状态, 这对于加速查询是十分有帮助的. 可以在比较低的工作时间中去运行analyze来保证统计信息的更新性.

这里需要提及的analyze 需要一个读锁来，此时这个工作可以和其他的工作并行工作。这里的工作包含统计表中大部分的列的值的分布，并且可以通过直方图展示每列值的分布的情况。

对于大表，analyze 会对大表取一个随机的表的内容，而不会傻到对每一个行进行一个扫描.这样做的好处是节省数据判断的时间. 但这样的结果是很可能每次运行ANALYZE会有不同的结果,当然一般这样的变化是细微的. 这样的情况下我们可以提高analyze 的手动的次数,提高整体查询计划的平稳性.

而这些数据到底存到了哪里, pg_statistic, pg_statistic 是存储analyze 命令执行后或者autovacuum 执行后统计的内容存储到了这个表. 这里注意存储的数据的值基本都是近似值.

starelid: starelid 是pg_statistic中关于这条记录是表的oid信息

staattnum: 所属表的列的编号

stainherit : 这个列标明这个列是否包含继承的子列,并且是否被统计,TRUE为统计

stanumber1：是我们这列存储的值的分布情况

stavalues1：存储列中存储的值的明细