PostgreSQL 添加索引导致崩溃,参数调整需谨慎--文档未必完全覆盖场景

开头还是介绍一下群,如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, OceanBase, Sql Server等有问题,有需求都可以加群群内有各大数据库行业大咖,可以解决你的问题。加群请联系 liuaustin3 ,(共2720人左右 1 + 2 + 3 + 4 +5 + 6 + 7 + 8 +9)(1 2 3 4 5 6 7群均已爆满,开8群200 9群)

题目比较混乱,实际上这件事也让我认识到两点问题

1  官方的说明文档,你不能全信,官方文档说明的部分只能是一个大概或者大部分情况,你的情况是否属于这个部分,你的自行评估。

2  参数的调节,是一个漫长的过程,是不断踩坑的过程中总结的,实践是产出经验的地方

3  一些不能使用的命令,在关键时刻,必须使用,这也是我对PostgreSQL的数据库安全担心的地方。

具体案例:

最近遇到一则比较怪的问题,就是关于PostgreSQL大表添加索引,直接引起PostgreSQL crash的问题。故障的现象是,对这张2亿行表添加索引,系统会crash。

992422a7adce4ee423e266eb32e5e855.png 0f2ae38f49ec3e8eac6f67dc19c8b6bd.png 11c1e4fa9d1f6590a6fcaaf53fc9a73f.png 320b0bb1a98310377cdcc1955dcb729e.png

以上是当时的情况,从图中和对应日志,我们可以分析到一个问题在添加索引的情况下,且有大量的UPDATE ,在短时间内存使用率持续走高,我们看下面这张图

9cb96b28d2c6745b529dbd43efd8d541.png

一开始在添加索引的时候,mem_size_cache持续走低,同时mem_size_rss持续走高。

mem_size_cache是指的操作系统缓存,这是用来缓存磁盘上的数据页的内存,随着添加内存的操作,系统开始检测到内存不足,在不断腾出更多的内存给正在运行的进程。

mem_size_rss 持续走高,RSS 是Resident set size ,这个量是指的在物理内存中实际占用的内存量。

这两个符合在添加索引中内存的消耗,在崩溃的前一刻,系统的mem_size_rss已经接近了20G 整体的内存才32G,shared buffer pool 设置为8G。

从这里分析系统崩溃的主要原因就是内存OOM,然后系统作出了 KILL -9 客户进程的操作,然后系统就开始触发了整体的进程的重启,最后系统进入了recovery_mode,整体进行recoery 的过程在2秒结束。 这说明一个问题,系统OOM 的时候操作系统KILL的是客户的添加索引的进程,而不是主进程。如果是重启一个11T的大库2秒是起不来的,尤其还是要进行recovery 的过程。

  POSTGRESQL 数据库崩溃的原因搞清楚了,需要我们注意的有几个地方

1  maintenance_work_mem 的设置是否和官方说的是可以更大一点进行设置,到底应该多大,部分情况下设置的过大,会不会出现我们的问题,因为可能一次批量添加很多索引,那么每个进程都会开启使用maintenance_work_mem的模式,包含了一个添加过程中的多个子进程也都可以进行内存的单独分配,所以如果有批量干一些事情的情况下,maintenance_work_mem一定不要设置太大,否则就会和我们一样,操作系统直接发出KILL -9 的命令直接将客户的进程KILL ,而引发整体的进程的重启。

(下图为官方关于此参数的说明)

0ceae155f78cbd1d560dae8b617ff9a1.png

2 KILL -9  这个问题已经很明确了,在我们个人的操作中是不允许使用KILL-9 去KILL 客户或者系统的进程,这对PG来说是非常容易出现数据丢失,但是在系统层面,如果发现某个进程使用内存太多,他们会直接发起KILL -9 的工作来将这个进程杀死,好让整体系统进行工作。

这类就产生一个问题,到底要不要KILL -9 ,人工我们可以使用命令

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值