
Greenplum
文章平均质量分 80
肝帝三脚猫
这个作者很懒,什么都没留下…
展开
-
gprecoverseg代码解析
一、全量拉取函数调用流程gprecoverseggprecoverseg只是一个入口,调用情况如下:# gprecoversegfrom gppylib.mainUtils import simple_mainfrom gppylib.programs.clsRecoverSegment import GpRecoverSegmentProgramif __name__ == '__main__': simple_main(GpRecoverSegmentProgram.create原创 2022-02-08 16:49:57 · 1105 阅读 · 0 评论 -
GP通过PXF连接MySQL
PXF版本是5.X设置PXF_CONF初始化pxf cluster init上传jar包PXF内置的jdbc驱动只有连接PostgreSQL/Greenplum的,连接MySQL的话需要上传相应的jdbc驱动。下载的驱动为mysql-connector-java.jar,放置在$PXF_CONF/lib路径下。修改jdbc配置文件在PXFCONF下的server路径下创建新的路径,例如PXF_CONF下的server路径下创建新的路径,例如PXFCONF下的server路原创 2022-01-26 15:00:51 · 1359 阅读 · 0 评论 -
gpfdist不落盘导入数据
Linux中一切皆可以看作是文件,通过把gpfdist外部表中的文件替换成管道,可以实现不落盘导入数据。创建管道通过mkfifo命令创建命名管道,作为写入和读取的文件,下图示例中第一个字符p表示该文件是管道文件。开启gpfdist服务建立外部表外部表中需要指定文件的location,把location中的文件写成刚才创建的管道。开启生产者与消费者线程往该管道中写数据可以看作是生产者、数据库中读取数据可以看作是消费者。在实际代码实现中可以考虑使用双线程/进程来实现,二者在对方线程未触发前会原创 2022-01-25 14:12:22 · 475 阅读 · 0 评论 -
GP通过PXF远程读取其他GP集群测试研究
研究背景相关项目人员因业务特点,需要在本地GP集群中使用PXF读取其他GP集群的表数据。测试数据使用标准TPCH工具生成300G数据,并导入远端GP集群(以下称为集群1)数据生成/导入步骤:使用dbgen产生一些测试数据, -s 表示scale(单位为GB),根据需要测试的数据量指定:./dbgen -s 300 -f将测试数据转换为postgresql识别的格式,删除末尾的分隔符|。for i in `ls *.tbl`; do sed 's/|$//' $i > ${i/原创 2021-12-17 11:06:29 · 1168 阅读 · 0 评论 -
GP日志打印函数中关于SQL的部份
Greenplum版本为6.17正常SQL打印在postgres.c中正常执行完SQL后会打印SQL信息(根据log_statement的设置区分是否打印),执行打印的步骤位于exec_simple_query函数中的1645行,信息如下:/* Log immediately if dictated by log_statement */if (check_log_statement(parsetree_list)){ ereport(LOG, (errmsg("s原创 2021-09-27 10:48:08 · 525 阅读 · 0 评论 -
Greenplum UDP连接问题排查与解决
近日遇到Greenplum数据库执行部份SQL会卡住,最终报向某个节点发包失败的错误,此处记录一下排查过程和解决方法。1. 故障现象数据库状态正常,使用gpstate命令查看状态没有任何异常,可以正常进入数据库并查询任意表的数据,但是业务端反馈查询时一直卡住,没有数据。数据库错误如下:2. SQL分析获取实际执行的SQL后进行分解 ,最终定位到在在执行group by操作时会执行失败,取消group by则可以执行成功。对这两个SQL进行explain,分析查询计划,发现二者最大的区别在于加入了g原创 2021-09-13 10:02:36 · 3711 阅读 · 0 评论 -
Greenplum数据库快速调优
集群规划中影响性能的因素架构设计并行处理时,用户查询的处理速度取决于集群里最慢的数据库实例的完成时间。所以,当各节点服务器硬件配置不一样时,配置高的机器处理速度快,配置低的机器处理慢,此时短板就是配置较差的机器,影响整体性能。如果想再硬件上提升数据库性能,就需要均衡各个节点的服务器配置才有用。还有一种情况是实例处理数据量不均衡。这可能是建表时分布键选择不正确,导致数据倾斜到某些节点,导致该实例上的节点要处理的数量高于其他节点,导致处理时间相对于其他节点变慢,最终导致整个查询速度变慢。这种情况可以通过原创 2021-04-13 22:08:35 · 4142 阅读 · 0 评论 -
Greenplum之生态与工具
Greenplum生态介绍生态发展历程通过上图中左边的时间线,我们可以感受到开源的力量,开源裂变如此之快的经验可以总结为以下四点:基于PG丰富的语言接口,很多北向的应用厂家可以迅速的与GP进行兼容适配南向接口方面,包括pxf、fdw、gpfdist、gpload以及一些商业组件,例如gpkafka等等,这些可以使外部系统的数据集成更加容易基于PG内核的快速迭代,使得与PG最新版本的差距会越来越小,内核的并行执行能力等优秀特性会带来直观的性能提升感受GP对PG的方向促进作用,包括pivotal原创 2021-04-09 21:24:43 · 1033 阅读 · 0 评论 -
Greenplum备份、安全与高可用
Greenplum高可用Greenplum高可用的实现主要由以下四个部分组成:管理节点——需要手动激活备节点(GP7中据说可以实现自动failover)数据节点交换机——建议双万兆网卡,采用模式4绑定,交换机使用链路聚合LACP的方式服务器——硬件冗余、raid5、hotspareGreenplum自身在高可用方面的实现主要是2各方面,管理节点和数据节点。在管理节点方面,Standby和Master的实时更新是通过WAL(预写式日志,一种流复制技术)。可以通过“gpstate -f”原创 2021-04-06 21:26:01 · 1246 阅读 · 0 评论 -
Greenplum介绍、安装与部署
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...原创 2021-04-02 21:56:31 · 4459 阅读 · 0 评论