PostgreSQL 并行好不好,有人说好,有人说遭?

开头还是介绍一下群,如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, OceanBase, Sql Server等有问题,有需求都可以加群群内有各大数据库行业大咖,可以解决你的问题。加群请联系 liuaustin3 ,(共2800人左右 1 + 2 + 3 + 4 +5 + 6 + 7 + 8 +9)(1 2 3 4 5 6 7群均已爆满,开8群300+ 9群 100+)

上个月,接了一个活,鸿门宴讲PostgreSQL --  被拉去央企救场一天去给人家讲一下PostgreSQL的并行,本着给谁讲不是讲,他们花钱这里免费的原则。我总结了一下PostgreSQL并行的知识点。

PostgreSQL 并行

PostgreSQL 并行

今天这么多的内容是写不完的,本期只针对SQL查询的部分进行内容的撰写和分析。随着主机的CPU核心的数量增多,对于SQL的并行的支持一直是各种商业数据库要考量的部分,作为开源的数据库PostgreSQL在SQL并行方面相对于其他的一些开源数据库是很良心的。

基于开源的POSTGRESQL数据库在QUERY并行参数的部分,给出了甚多的自由调整的参数,

参数

作用

建议

max_parallel_workers_per_gather

每个 Gather 节点最大并行 worker 数,默认 2

建议设为 CPU 核心数的一半或更高;大表可设为 4 - 8 以上 pgMustardCrunchy Data

max_parallel_workers

系统级并行 worker 总数,默认 8

应 ≥ max_parallel_workers_per_gather;不要超过 max_worker_processes PostgreSQL

max_worker_processes

后端总 worker 进程数,默认 8

留出给连接进程、维护任务等,避免配置过高导致系统负载 Database Administrators Stack Exchange

parallel_setup_cost

并行启动开销,默认 1000

可根据实际测试适当下调,让短查询也尝试并行 PostgreSQL

parallel_tuple_cost

元组传输开销,默认 0.1

若发现过多磁盘临时文件、I/O,可适当调高以减少无效并行 EDB

min_parallel_table_scan_size

并行顺序扫描阈值(表),默认 8MB

小表不并行;如业务表偏小,可酌情降低阈值 PostgreSQL

min_parallel_index_scan_size

并行索引扫描阈值(索引),默认 512KB

同上;索引扫描更轻量,可设置更低 PostgreSQL

parallel_leader_participation

是否让领导进程参与并行计算,默认 on

高 worker 数时可 off,让 leader 专注于收集合并 PostgreSQL

work_mem

单个 worker 的排序/哈希内存

并行时多个 worker 会并发申请,预留足够内存


说到这里,其实最让人困扰的是这些参数的关系,单独拿出一个参数都明白是什么意思,把这堆参数放一块,很多人就开始晕,咱们今天来去把这些参数之间的关系来梳理一下。

max_worker_processes,这个参数最容易被理解错误,这个参数主要的意义是限制除了你query session外的后台程序在POSTGRESQL中运行的数量,那么这些后台程序包含什么?

一句话和客户无关的后台进程都要收到这个参数的限制,那么到底那些进程受到他的限制:

1  并行的查询工作进程(由系统发起的并行) 2  逻辑复制进程 3  自动清理进程 4  后台维护进程

那么max_worker_processes 的意义何在这是我们应该对自己管理的数据库应该提出的问题,一句话解释,防止你滥用和其他参数配置错误,导致系统无法处理这些工作而最终资源耗尽而宕机。

举例比如你进来30个查询,每个查询都要触发进行并行操作,你并行操作设置的是4,也就是会产生 30 * 4 = 并行的查询的后台进程。

我们按照每个进程可以获得 8MB的内存 120 * 8 = 8160MB 的内存使用的量,此时如果你的系统仅仅就16G的内存,那么你这里设置 max_worker_processes 合适吗?  显然是不合适的。

2 max_parallel_workers

这个参数是控制QUERY并行的时候到底可以产生多少个并行的works,这里就要考虑另一个问题,你要留下多少固定的processes 给非query的进程,一般情况下你要考虑你有没有逻辑复制,以及你的autovacuum的工作时的进程数是多少

max_parallel_workers = max_worker_processes - 固定的backgroud processes

具体多少,你就要看你的具体情况了,比如你有大量的逻辑复制,那么你这个部分就不能太多了,或者你系统的vacuum就是一个大问题,且你设置的autovacuum的工作进程数量较多,那么你也不能给max_parallel_workers 太多的数量,具体的情况就要具体的分析了,这也是和学生们要讨论和给出方案的部分。

那么如果设置不好会造成什么问题

1  查询挤压 2  内存耗尽系统OOM 3  逻辑复制挤压 4  autovacuum 无法分配进程导致dead tuple无法有效的被清理,系统性能下降。

而不足的max_parallel_workers,会导致并行查询无法获得足够的进程而无法进行并行查询。

3  max_parallel_workers_per_gather,这是今天要说的最后一个和查询有关的并行参数,这个参数是每个SQL可以使用的最大的并行度。

这三个参数是三级跳,max_worker_processes  > max_parallel_workers > max_parallel_workers_per_gather

说到这里曾经有些同学认为 max_parallel_workers_per_gather 这个数量越大越好,他们认为更大的max_parallel_workers_per_gather 会然给一个SQL可以使用更多的CPU来处理一个SQL的数据,但在实际的应用中,

我们需要分清一些信息,三种典型的JOIN,并行是怎么进行应用的。

1  Hash join ,hash_join 的并行是从PG11引入的,并行的部分包含了构建hash表的工作,和后续的探查阶段的工作进程的数据量,从而加速hash join 的操作。

2  Merge_join,Merge_john 最大的需求是表和表之间的排序问题,通过对两个要进行john的表进行排序来进行比对,那么并行主要要用在表的排序中,通过在排序阶段加速来加快merge join的工作

3  Nested loop : 外表,内表,驱动表和被驱动表,或者称之为小表的大表,其实这也是一个数据的比对过程,而并行在这里进行使用的主要作用是通过对大表的并行扫描和小表的比对来加快数据的处理。

写到这里,为什么说并行太多会影响性能,我们想一个问题,并行的资源来自于数据索取后的归并,那么归并分为有序归并和无序归并,有序的归并消耗会更多,这里每个tumple在 gather merge的时候都要消耗,越多的 works并行,就会导致越多的CPU消耗,且长时间霸占,这样会导致其他的查询无法获得有效的并行,所以在有序需求场景多的地方,合理配置并行查询参数是一门功课!

如果这篇文章对您有帮助,且不麻烦的话,谢谢帮我投一票,二维码或连接进入,给Austindatabases 投上您宝贵的 10票 (一次可以投10票),不胜欣喜,您的支持是我最大的动力。           

                             https://zt.itpub.net/topic/peanit/ 

图片

                            

图片

置顶

三段 DBA 的小故事,过去的不会在来,未来的还不曾遇到     

 现代数据库的必要组件--数据库代理都能做什么

     和架构师沟通那种“一坨”的系统,推荐只能是OceanBase,Why ?

DBA 怎么变得更强-应对架构师提出高并发问题?

鸿门宴讲PostgreSQL --  被拉去央企救场一天

       美国知名大学开授China数据库理论,你没看错!

       DBA 会架构,实际案例分析--“IT流氓”得下跪

搞 PostgreSQL多才多艺的人--赵渝强 《PG数据库实战派》

追逐太阳的男人--林春 《金融数据库转型实战》

打破DBA局限:像架构师一样思考,提升你的技术价值-- 访蚂蚁金服P9 朱春茂

MongoDB 相关文章

MongoDB “升级项目” 大型连续剧(4)-- 与开发和架构沟通与扫尾

MongoDB “升级项目” 大型连续剧(3)-- 自动校对代码与注意事项

MongoDB “升级项目” 大型连续剧(2)-- 到底谁是"der"

MongoDB “升级项目”  大型连续剧(1)-- 可“生”可不升

MongoDB  大俗大雅,上来问分片真三俗 -- 4 分什么分

MongoDB 大俗大雅,高端知识讲“庸俗” --3 奇葩数据更新方法

MongoDB 学习建模与设计思路--统计数据更新案例

MongoDB  大俗大雅,高端的知识讲“通俗” -- 2 嵌套和引用

MongoDB  大俗大雅,高端的知识讲“低俗” -- 1 什么叫多模

MongoDB 合作考试报销活动 贴附属,MongoDB基础知识速通

MongoDB 年底活动,免费考试名额 7个公众号获得

MongoDB 使用网上妙招,直接DOWN机---清理表碎片导致的灾祸 (送书活动结束)

MongoDB 2023年度纽约 MongoDB 年度大会话题 -- MongoDB 数据模式与建模

MongoDB  双机热备那篇文章是  “毒”

MongoDB   会丢数据吗?在次补刀MongoDB  双机热备

MONGODB  ---- Austindatabases  历年文章合集

OceanBase 相关文章

OceanBase 单机版可以大批量快速部署吗? YES

OceanBase 6大学习法--OBCA视频学习总结第六章

OceanBase 6大学习法--OBCA视频学习总结第五章--索引与表设计

OceanBase 6大学习法--OBCA视频学习总结第五章--开发与库表设计

OceanBase 6大学习法--OBCA视频学习总结第四章 --数据库安装

OceanBase 6大学习法--OBCA视频学习总结第三章--数据库引擎

OceanBase 架构学习--OB上手视频学习总结第二章 (OBCA)

OceanBase 6大学习法--OB上手视频学习总结第一章

没有谁是垮掉的一代--记 第四届 OceanBase 数据库大赛

OceanBase  送祝福活动,礼物和幸运带给您

跟我学OceanBase4.0 --阅读白皮书 (OB分布式优化哪里了提高了速度)

跟我学OceanBase4.0 --阅读白皮书 (4.0优化的核心点是什么)

跟我学OceanBase4.0 --阅读白皮书 (0.5-4.0的架构与之前架构特点)

跟我学OceanBase4.0 --阅读白皮书 (旧的概念害死人呀,更新知识和理念)

聚焦SaaS类企业数据库选型(技术、成本、合规、地缘政治)

OceanBase 学习记录-- 建立MySQL租户,像用MySQL一样使用OB

PolarDB 相关文章

MySQL 和 PostgreSQL 可以一起快速发展,提供更多的功能?

这个MySQL说“云上自建的MySQL”都是”小垃圾“

        PolarDB MySQL 加索引卡主的整体解决方案

“PostgreSQL” 高性能主从强一致读写分离,我行,你没戏!

PostgreSQL 的搅局者问世了,杀过来了!

在被厂商围剿的DBA 求生之路 --我是老油条

POLARDB  添加字段 “卡” 住---这锅Polar不背

PolarDB 版本差异分析--外人不知道的秘密(谁是绵羊,谁是怪兽)

在被厂商围剿的DBA 求生之路 --我是老油条

PolarDB 答题拿-- 飞刀总的书、同款卫衣、T恤,来自杭州的Package(活动结束了)

PolarDB for MySQL 三大核心之一POLARFS 今天扒开它--- 嘛是火

PostgreSQL 相关文章

PostgreSQL  无服务 Neon and Aurora 新技术下的新经济模式 (翻译)

PostgreSQL的"犄角旮旯"的参数捋一捋

PostgreSQL逻辑复制槽功能

PostgreSQL 扫盲贴 常用的监控分析脚本

“PostgreSQL” 高性能主从强一致读写分离,我行,你没戏!

PostgreSQL  添加索引导致崩溃,参数调整需谨慎--文档未必完全覆盖场景

PostgreSQL 的搅局者问世了,杀过来了!

PostgreSQL SQL优化用兵法,优化后提高 140倍速度

PostgreSQL 运维的难与“难”  --上海PG大会主题记录

PostgreSQL 什么都能存,什么都能塞 --- 你能成熟一点吗?

PostgreSQL 迁移用户很简单 ---  我看你的好戏

PostgreSQL 用户胡作非为只能受着 --- 警告他

全世界都在“搞” PostgreSQL ,从Oracle 得到一个“馊主意”开始
PostgreSQL 加索引系统OOM 怨我了--- 不怨你怨谁

PostgreSQL “我怎么就连个数据库都不会建?” --- 你还真不会!

病毒攻击PostgreSQL暴力破解系统,防范加固系统方案(内附分析日志脚本)

PostgreSQL 远程管理越来越简单,6个自动化脚本开胃菜

PostgreSQL 稳定性平台 PG中文社区大会--杭州来去匆匆

PostgreSQL 如何通过工具来分析PG 内存泄露

PostgreSQL  分组查询可以不进行全表扫描吗?速度提高上千倍?

POSTGRESQL --Austindatabaes 历年文章整理

PostgreSQL  查询语句开发写不好是必然,不是PG的锅

PostgreSQL  字符集乌龙导致数据查询排序的问题,与 MySQL 稳定 "PG不稳定"

PostgreSQL  Patroni 3.0 新功能规划 2023年 纽约PG 大会 (音译)

PostgreSQL   玩PG我们是认真的,vacuum 稳定性平台我们有了

PostgreSQL DBA硬扛 垃圾 “开发”,“架构师”,滥用PG 你们滚出 !(附送定期清理连接脚本)

DBA 失职导致 PostgreSQL 日志疯涨

MySQL相关文章

MySQL SQL优化快速定位案例 与 优化思维导图

"DBA 是个der" 吵出MySQL主键问题多种解决方案

MySQL 怎么让自己更高级---从内存表说到了开发方式

MySQL timeout 参数可以让事务不完全回滚

MySQL 让你还用5.7 出事了吧,用着用着5.7崩了

MySQL 的SQL引擎很差吗?由一个同学提出问题引出的实验

用MySql不是MySQL, 不用MySQL都是MySQL 横批 哼哼哈哈啊啊

MYSQL  --Austindatabases 历年文章合集

临时工访谈系列

没有谁是垮掉的一代--记 第四届 OceanBase 数据库大赛

ETL 行业也够卷,云化ETL,ETL 软件不过了

SQL SERVER 系列

SQL SERVER维保AI化,从一段小故事开始

SQL SERVER 如何实现UNDO REDO 和PostgreSQL 有近亲关系吗

SQL SERVER 危险中,标题不让发,进入看详情(译)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值