
3月16日,和示说社区合作,Greenplum中文社区开展了新年第一场直播活动,在直播中,原厂内核工程师李正龙进行了《Greenplum分布式数据库内核揭秘》主题演讲。介绍了将 PostgreSQL 改造成 MPP 数据库所涉及的主要工作。
相关视频已上传B站Greenplum中文社区频道,PPT已上传至社区中文网站cn.greenplum.org/download。欢迎自行获取。

Greenplum 是基于 PostgreSQL 所实现的大规模并行处理(MPP)开源数据平台,具有良 好的弹性和线性拓展能力,内置并行存储、并行通信、并行计算和并行优化功能,兼容 SQL 标准。 拥有独特高效的 ORCA 优化器,具有强大、高效的 PB 级数据存储、处理和实时分析能力,同时支持 OLTP 型业务的混合负载。



应用层
在应用层,Greenplum提供了各种各样的管理工具,来帮助用户更好的使用Greenplum。 首先是ETL工具。对数据仓库来说,并不会自己产生数据,从其他源头获取功能,就成为数据仓库所必须要具备的功能。Greenplum自行实现了gpfdist,gpload等高效的数据的抽取、转换和加载工具,能够实现丰富的ETL功能。
Greenplum里集成了机器学习或者人工智能分析开源平台——MADlib。作为Apache基金会顶级开源项目,MADlib里集成了大量的基于传统数学分析统计的算法、图计算的算法以及一些常见的机器学习的算法。借助MADlib,Greenplum用户可以完成高效的机器学习训练。
GPText、GPCC是Greenplum的商业版组件。GPText是Greenplum的全文搜索引擎,GPText使用户可以在Greenplum里能够直接内置在库内的对非结构化的文本进行快速索引和检索的组件,GPText集成了solr文本分析引擎,把结构化分析和非结构化分析完美的结合在一起,可以通过SQL对非结构化文本进行快速的检索和索引。而GPCC是Greenplum商业版自带的可视化监控平台,可以在线查看Greenplum状态,比如集群的健康状况,系统运行的负载情况,当前查询的性能情况等,帮助用户更好的管理运维Greenplum。
Greenplum PostGIS为Greenplum提供了对地理位置的索引支持。 此外,Greenplum提供了一系列的集群管理工具,例如Greenplum Catelog的检查,GPrecovery segment对segment的恢复,GPSS等。


运维层
在运维层, Greenplum提供了多级故障转移,高效在线扩容使Greenplum在不停机的情况下能够实现集群节点的增加,实现线上扩容的操作。Greenplum也实现了高效的资源与并发管理,例如对于Resouce Queue和Resource Group两种组件的支持,能够在会话级别,数据库级别和查询级别做一些限制。


底层实现
在底层实现上, 首先Greenplum是一个MPP架构的数据库。MPP架构是如今较为流行的OLAP分布式数据库的架构实现。
在视频中,我们将对Greenplum MPP架构做进一步讲解,并会对并行查询执行,多态存储,节点间高效数据查询详细介绍。欢迎大家的观看!
1
点击观看完整视频
点击文末“ 阅读原文 ”,获取Greenplum中文资源。


本文分享自微信公众号 - Greenplum中文社区(GreenplumCommunity)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。