PostgreSQL 添加索引导致崩溃，参数调整需谨慎--文档未必完全覆盖场景

原创

于 2025-02-17 06:01:22 发布 · 800 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#postgresql #数据库

开头还是介绍一下群，如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, OceanBase, Sql Server等有问题，有需求都可以加群群内有各大数据库行业大咖，可以解决你的问题。加群请联系 liuaustin3 ，（共2720人左右 1 + 2 + 3 + 4 +5 + 6 + 7 + 8 +9）(1 2 3 4 5 6 7群均已爆满，开8群200 9群)

题目比较混乱，实际上这件事也让我认识到两点问题

1 官方的说明文档，你不能全信，官方文档说明的部分只能是一个大概或者大部分情况，你的情况是否属于这个部分，你的自行评估。

2 参数的调节，是一个漫长的过程，是不断踩坑的过程中总结的，实践是产出经验的地方

3 一些不能使用的命令，在关键时刻，必须使用，这也是我对PostgreSQL的数据库安全担心的地方。

具体案例：

最近遇到一则比较怪的问题，就是关于PostgreSQL大表添加索引，直接引起PostgreSQL crash的问题。故障的现象是，对这张2亿行表添加索引，系统会crash。

以上是当时的情况，从图中和对应日志，我们可以分析到一个问题在添加索引的情况下，且有大量的UPDATE ，在短时间内存使用率持续走高，我们看下面这张图

一开始在添加索引的时候，mem_size_cache持续走低，同时mem_size_rss持续走高。

mem_size_cache是指的操作系统缓存，这是用来缓存磁盘上的数据页的内存，随着添加内存的操作，系统开始检测到内存不足，在不断腾出更多的内存给正在运行的进程。

mem_size_rss 持续走高，RSS 是Resident set size ，这个量是指的在物理内存中实际占用的内存量。

这两个符合在添加索引中内存的消耗，在崩溃的前一刻，系统的mem_size_rss已经接近了20G 整体的内存才32G，shared buffer pool 设置为8G。

从这里分析系统崩溃的主要原因就是内存OOM，然后系统作出了 KILL -9 客户进程的操作，然后系统就开始触发了整体的进程的重启，最后系统进入了recovery_mode，整体进行recoery 的过程在2秒结束。这说明一个问题，系统OOM 的时候操作系统KILL的是客户的添加索引的进程，而不是主进程。如果是重启一个11T的大库2秒是起不来的,尤其还是要进行recovery 的过程。

POSTGRESQL 数据库崩溃的原因搞清楚了，需要我们注意的有几个地方

1 maintenance_work_mem 的设置是否和官方说的是可以更大一点进行设置，到底应该多大，部分情况下设置的过大，会不会出现我们的问题，因为可能一次批量添加很多索引，那么每个进程都会开启使用maintenance_work_mem的模式，包含了一个添加过程中的多个子进程也都可以进行内存的单独分配，所以如果有批量干一些事情的情况下，maintenance_work_mem一定不要设置太大，否则就会和我们一样，操作系统直接发出KILL -9 的命令直接将客户的进程KILL ，而引发整体的进程的重启。

（下图为官方关于此参数的说明）