敏捷的软件开发是Pivotal的核心业务,也是Pivotal Greenplum创新的主要驱动因素,现在Pivotal Greenplum已经发展到了5.3版本。本文主要介绍Pivotal Greenplum 5.3的功能特性。
一、Greenplum容器化

Greenplum 5.3是一个基础版本,在我们向未来与Pivotal Container Service (PKS)集成迈进的过程中提供了早期的容器化功能。
完全容器化的 Greenplum 在分析数据库领域将是独一无二的,因为许多传统的数据分析平台都是一体化的,难以抽离。容器化的 Greenplum 将能够扩展以支持更多用户、更多工作负载,并减少邻居资源争用的影响。它还将给予数据库管理员(DBA)管理系统的最终控制权,并平衡不同用户的查询请求。
Greenplum 5.3提供基础组件,这些组件通过允许查询接口(例如符合ANSI的SQL、Python和R)在平台内进行容器化来增强资源隔离和弹性。
由全新Greenplum 5.3资源组功能提供支持。
这一新功能进一步增强了Greenplum的稳定性和可管理性,同时为多租户和混合工作负载提供了更丰富的资源隔离。
它提供CPU和内存资源的操作系统级别分组功能,以及可确保每个事务都能达到预定数量的并发事务。
资源组CPU管理建立在Linux控制组(cgroups)基础上,可向所有组提供良好的隔离和自动突增的CPU资源。
每个资源组的内存分配都会在组和查询级别预先进行配置。
资源组执行基于事务的并发管理。这使得DBA可以管理并发级别,并为等待进入系统的查询创建有序队列。
由全新Greenplum 5 PL/容器(预览功能)提供支持。
这是可信语言执行引擎的实现,该引擎能够启动Docker容器,将执行程序与主机操作系统隔离,从而实现沙箱化。
PL/容器在Docker容器内部运行Python和R代码。Greenplum内部运行的服务器端代码使用RPC协议与容器进行通信。
容器预先配置了Pivotal Greenplum,用于数据科学工作负载,还可以针对不同的最终用户工作负载从头开始自定义或构建容器。可以部署多个不同的容器,以适应具有不同要求的不同开发团队。
二、Greenplum 数据生态系统可扩展性
Greenplum 5.3显著提高了与Apache Hadoop和Apache Spark框架的现有集成水平。
改进了与Hadoop生态系统的集成
Apache Hadoop是一种常见的分布式处理框架,主要部署为大型数据存储库(即“数据湖”)。企业正在寻求将数据湖的最佳要素与Pivotal Greenplum等MPP引擎的查询性能相结合的混合方法,从而实现高级分析。对于这些使用场景,Pivotal Greenplum 5.3提供了Platform eXtension Framework (PXF),这是一种REST API抽象层,使Pivotal Greenplum能够以高度并行的方式查询Hadoop数据。
新的PXF集成了来自Pivotal HDB(一种称为“Pivotal Extension Framework”的功能)的功能,从而为更广泛的Hadoop生态系统提供Pivotal HDB和数据集成的功能平等性。
借助PXF,Pivotal Greenplum用户可以跨平台内的数据和外部Hadoop源进行联合查询。这种共生关系可以将数据湖的成本和存储优势与Pivotal Greenplum MPP查询引擎的性能相结合。
PXF包含内置插件,用于访问HDFS文件、Hive表和HBase表中的数据。专为扩展而设计,用户可以创建自定义扩展来访问其他并行数据存储、处理引擎或文件及存储格式。
Pivotal Greenplum和Apache Spark集成
Apache Spark是用于大数据处理的极为常见且快速的内存中引擎。它提供用于流式处理、SQL、机器学习和图形处理的内置模块。数据科学家和数据工程师等Spark用户希望运行快速的内存中分析、探索性分析和ETL处理,并同时使用Pivotal Greenplum上的数据。用户将能够使用Spark JDBC驱动程序来加载和卸载Greenplum中的数据。
Pivotal Greenplum Spark连接器在Greenplum数据库和Apache Spark集群之间提供高速并行的数据传输。
三、Greenplum 开源改进
Greenplum 5.3添加了适用于Ubuntu Linux操作系统的Greenplum 数据库开源二进制文件,因而建立在开源支持基础上。
Ubuntu上的GPDB开源二进制文件
在Greenplum Database 5.3之前,发行版只能通过Github中的源代码获得;但这一切都随着5.3预先打包的二进制文件发生了改变。
二进制开源选项将为Greenplum社区提供更简单、更快速、更一致的安装。
预计这将显著提高Greenplum(开源版和商业版)的关注度和采用率。
Ubuntu用户可以使用本地apt-get命令从包含编译版本的个人软件包存档轻松安装Greenplum。
其他功能
最后,Pivotal Greenplum 5.3增加了大量新功能,其中包括:新的备份和恢复实用程序、用于文本搜索的不区分大小写的模块,以及我们对SUSE(SLES)12的新企业支持。
新版本的备份和恢复(预览特性)
新版本Greenplum备份和恢复功能可提供更高的性能,降低在线备份的锁竞争,提供监控和报告以及其他可配置性选项的进展情况。
新版本Greenplum备份和恢复实用程序包含在在Greenplum 5.3版本中。根据来自Greenplum客户的大量反馈,我们已经采纳了许多针对性能和可用性的建议,以期提供全新的备份和恢复体验。
提高了性能
支持多个并发备份,从而实现运行时间缩短50%。
元数据备份性能提高了6倍。
提高了压缩效率,运行时间缩短为原来的1/3。
用户体验
减少目录锁定,从而减少了与ETL进程的竞争。
提高了监视和日志记录的级别。
增加了用于选择性备份和恢复的对象过滤级别。
提供多种输出文件格式,帮助从Greenplum的早期版本迁移。
不区分大小写的文本(citext)模块
这是从PostgreSQL反向移植的新功能,可实现执行不区分大小写的文本搜索。它可以比较“cesar rojas”的所有匹配项(“Cesar Rojas”||“CESAR ROJAS”||“cesar rojas”||等)。
这是客户从Teradata等数据库迁移到Pivotal Greenplum的重要功能,也是我们Greenplum文本处理策略的关键要素。
支持 SLES 12
Pivotal现已为SUSE Linux Enterprise Server (SLES)12 提供Pivotal Greenplum官方支持。由此,Pivotal Greenplum目前也可为Redhat和SUSE的企业发行版提供全面支持。
关于作者
Cesar Rojas是Pivotal Greenplum的产品营销总监,负责为Greenplum制定宣传信息和市场营销策略。在加入Pivotal之前,Rojas曾担任Teradata Portfolio for Hadoop和Teradata Aster产品的产品营销总监。Rojas是一位资深分析和数据管理专家,在大型的数据分析公司和成功的数据初创企业有着15年的工作经验。Rojas从那慕尔圣母大学获得MBA学位,攻读方向是电子商务,还拥有计算机工程学科的学士学位。
点击文章底部“阅读原文”, 查看英文博客。
本文分享自微信公众号 - Greenplum中文社区(GreenplumCommunity)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。