Pivotal Greenplum 5.3 特性简介

最新推荐文章于 2024-02-21 12:38:18 发布

原创最新推荐文章于 2024-02-21 12:38:18 发布 · 238 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #大数据 #python #java #编程语言

敏捷的软件开发是Pivotal的核心业务，也是Pivotal Greenplum创新的主要驱动因素，现在Pivotal Greenplum已经发展到了5.3版本。本文主要介绍Pivotal Greenplum 5.3的功能特性。

一、Greenplum容器化

Greenplum 5.3是一个基础版本，在我们向未来与Pivotal Container Service (PKS)集成迈进的过程中提供了早期的容器化功能。

完全容器化的 Greenplum 在分析数据库领域将是独一无二的，因为许多传统的数据分析平台都是一体化的，难以抽离。容器化的 Greenplum 将能够扩展以支持更多用户、更多工作负载，并减少邻居资源争用的影响。它还将给予数据库管理员(DBA)管理系统的最终控制权，并平衡不同用户的查询请求。

Greenplum 5.3提供基础组件，这些组件通过允许查询接口（例如符合ANSI的SQL、Python和R）在平台内进行容器化来增强资源隔离和弹性。

查询容器化

由全新Greenplum 5.3资源组功能提供支持。
这一新功能进一步增强了Greenplum的稳定性和可管理性，同时为多租户和混合工作负载提供了更丰富的资源隔离。
它提供CPU和内存资源的操作系统级别分组功能，以及可确保每个事务都能达到预定数量的并发事务。
资源组CPU管理建立在Linux控制组(cgroups)基础上，可向所有组提供良好的隔离和自动突增的CPU资源。
每个资源组的内存分配都会在组和查询级别预先进行配置。
资源组执行基于事务的并发管理。这使得DBA可以管理并发级别，并为等待进入系统的查询创建有序队列。

支持R/Python语言容器化

由全新Greenplum 5 PL/容器（预览功能）提供支持。
这是可信语言执行引擎的实现，该引擎能够启动Docker容器，将执行程序与主机操作系统隔离，从而实现沙箱化。
PL/容器在Docker容器内部运行Python和R代码。Greenplum内部运行的服务器端代码使用RPC协议与容器进行通信。
容器预先配置了Pivotal Greenplum，用于数据科学工作负载，还可以针对不同的最终用户工作负载从头开始自定义或构建容器。可以部署多个不同的容器，以适应具有不同要求的不同开发团队。

二、Greenplum 数据生态系统可扩展性

Greenplum 5.3显著提高了与Apache Hadoop和Apache Spark框架的现有集成水平。

改进了与Hadoop生态系统的集成

Apache Hadoop是一种常见的分布式处理框架，主要部署为大型数据存储库（即“数据湖”）。企业正在寻求将数据湖的最佳要素与Pivotal Greenplum等MPP引擎的查询性能相结合的混合方法，从而实现高级分析。对于这些使用场景，Pivotal Greenplum 5.3提供了Platform eXtension Framework (PXF)，这是一种REST API抽象层，使Pivotal Greenplum能够以高度并行的方式查询Hadoop数据。
新的PXF集成了来自Pivotal HDB（一种称为“Pivotal Extension Framework”的功能）的功能，从而为更广泛的Hadoop生态系统提供Pivotal HDB和数据集成的功能平等性。
借助PXF，Pivotal Greenplum用户可以跨平台内的数据和外部Hadoop源进行联合查询。这种共生关系可以将数据湖的成本和存储优势与Pivotal Greenplum MPP查询引擎的性能相结合。
PXF包含内置插件，用于访问HDFS文件、Hive表和HBase表中的数据。专为扩展而设计，用户可以创建自定义扩展来访问其他并行数据存储、处理引擎或文件及存储格式。

Pivotal Greenplum和Apache Spark集成

Apache Spark是用于大数据处理的极为常见且快速的内存中引擎。它提供用于流式处理、SQL、机器学习和图形处理的内置模块。数据科学家和数据工程师等Spark用户希望运行快速的内存中分析、探索性分析和ETL处理，并同时使用Pivotal Greenplum上的数据。用户将能够使用Spark JDBC驱动程序来加载和卸载Greenplum中的数据。
Pivotal Greenplum Spark连接器在Greenplum数据库和Apache Spark集群之间提供高速并行的数据传输。

三、Greenplum 开源改进

Greenplum 5.3添加了适用于Ubuntu Linux操作系统的Greenplum 数据库开源二进制文件，因而建立在开源支持基础上。

Ubuntu上的GPDB开源二进制文件

在Greenplum Database 5.3之前，发行版只能通过Github中的源代码获得；但这一切都随着5.3预先打包的二进制文件发生了改变。
二进制开源选项将为Greenplum社区提供更简单、更快速、更一致的安装。
预计这将显著提高Greenplum（开源版和商业版）的关注度和采用率。
Ubuntu用户可以使用本地apt-get命令从包含编译版本的个人软件包存档轻松安装Greenplum。

其他功能

最后，Pivotal Greenplum 5.3增加了大量新功能，其中包括：新的备份和恢复实用程序、用于文本搜索的不区分大小写的模块，以及我们对SUSE(SLES)12的新企业支持。

新版本的备份和恢复（预览特性）

新版本Greenplum备份和恢复功能可提供更高的性能，降低在线备份的锁竞争，提供监控和报告以及其他可配置性选项的进展情况。
新版本Greenplum备份和恢复实用程序包含在在Greenplum 5.3版本中。根据来自Greenplum客户的大量反馈，我们已经采纳了许多针对性能和可用性的建议，以期提供全新的备份和恢复体验。
提高了性能
支持多个并发备份，从而实现运行时间缩短50%。
元数据备份性能提高了6倍。
提高了压缩效率，运行时间缩短为原来的1/3。
用户体验
减少目录锁定，从而减少了与ETL进程的竞争。
提高了监视和日志记录的级别。
增加了用于选择性备份和恢复的对象过滤级别。
提供多种输出文件格式，帮助从Greenplum的早期版本迁移。

不区分大小写的文本(citext)模块

这是从PostgreSQL反向移植的新功能，可实现执行不区分大小写的文本搜索。它可以比较“cesar rojas”的所有匹配项（“Cesar Rojas”||“CESAR ROJAS”||“cesar rojas”||等）。
这是客户从Teradata等数据库迁移到Pivotal Greenplum的重要功能，也是我们Greenplum文本处理策略的关键要素。

支持 SLES 12

Pivotal现已为SUSE Linux Enterprise Server （SLES）12 提供Pivotal Greenplum官方支持。由此，Pivotal Greenplum目前也可为Redhat和SUSE的企业发行版提供全面支持。

关于作者

Cesar Rojas是Pivotal Greenplum的产品营销总监，负责为Greenplum制定宣传信息和市场营销策略。在加入Pivotal之前，Rojas曾担任Teradata Portfolio for Hadoop和Teradata Aster产品的产品营销总监。Rojas是一位资深分析和数据管理专家，在大型的数据分析公司和成功的数据初创企业有着15年的工作经验。Rojas从那慕尔圣母大学获得MBA学位，攻读方向是电子商务，还拥有计算机工程学科的学士学位。

点击文章底部“阅读原文”，查看英文博客。

本文分享自微信公众号 - Greenplum中文社区（GreenplumCommunity）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。