Greenplum 5.2.0介绍
Pivotal Greenplum是基于MPP架构的数据库产品,它可以满足下一代数据仓库对大规模的分析任务的需求。通过自动对数据进行分区以及多节点并行执行查询等方式,它使一个包含上百节点的数据库集群运行起来就像单机版本的传统数据库一样简单可靠,同时提供了几十倍甚至上百倍的性能提升。除了传统的SQL,Greenplum还支持MapReduce,文本索引,存储过程等很多分析工具,所支持的数据量可以从上百GB到几百TB。
Greenplum 5.2.0可以从这里下载(https://network.pivotal.io/products),文档在这里(https://gpdb.docs.pivotal.io/520/main/index.html),主页在这里(http://greenplum.org),源代码在github(https://github.com/greenplum-db/gpdb)。
新特性支持
增强了外部表的分区支持
对于多级分区表的子节点分区,Greenplum 5.2允许通过alter table命令,将子节点的分区表,由内部表换为外部表。对于包含按时间分区的表,可以利用这一功能将不频繁历史数据卸载到外部数据源。
增强了GPORCA对分区剪裁的优化
GPORCA做分支剪裁优化时,现在会识别等号条件中需要类型转换的参数和字段(包括显式类型转换和隐式类型转换),例如 select * from part_tbl where id=5::int8,当id字段也是integer类型时,会同时发生显式和隐式类型转换;新的GPORCA会根据类型转换后的条件对分区路径进行剪裁。
改进了analyzedb
在Greenplum 5.2中,analyzedb支持了--gen_profile_only选项,它可以在不实际运行任何analyse操作的前提下,更新analysedb的统计信息;从而提高运行效率。
支持了基于Resource group的资源管理
Resource group是Greenplum的下一代资源管理框架,从5.2开始由之前的实验功能成为正式功能。Resource group可以用来管理并发查询的数量,以及每个查询允许使用的CPU和内存的限制。Greenplum 5.2支持在RHEL平台上使用resource group。Gpcronndump和gpdbrestore可以支持备份和恢复resource group的配置信息。
增加了PXF的功能
支持从外部HBase的数据源中读取数据
支持向HDFS中写入普通文本和二进制格式的文件
PXF可以支持通过RPM方式安装相关Hadoop客户端组件,例如HDFS, Hive, HBase
支持DELL EMC的新版本DCA
Greenplum 5.2支持DELL EMC DCA的3.4及以上版本
支持了passwordcheck模块
Passwordcheck可以检查用户设置的密码强度,在用户设置了弱密码时,它可以拒绝用户的密码设置或修改。
支持旧版本的Informatica connector
Greenplum 5.2的加载工具现在可以兼容老版本Informatica(9.x及以上)的PWX Greenplum Connector。
试验特性
除了正式支持的功能外,Greenplum 5.2.0还包含了下面几个试验特性:
全新的backup/restore工具
Greenplum5.2中提供了全新的并行备份和恢复工具gpbackup和gprestore,可以用它们替代gpcrondump 和 gpdbrestore。新的备份工具对系统表使用了共享锁而不是排他锁,支持全局transaction,提供了备份性能。此外gpbackup备份数据库对象时,还可以自动备份其依赖的对象,比如自定义函数和自定义类型。
PL/Container扩展
Greenplum PL/Container 扩展可以让用户在docker容器中运行自定义函数。它运行UDF执行任何命令而不需要访问真正的系统文件,它为在Greenplum中运行的UDF提供了更好的隔离和安全性。
Recursive CTE
CTE(Common Table Expressin)定义了一个可以在同一个查询里重复使用的临时表,可以大大简化SQL语句。Greenplum 5.1.0中CTE定义支持了recursive关键字,从而允许在CTE定义时可以递归的引用自己。
SUSE平台上基于Resource group的资源管理
由于内核版本限制,SUSE上的cgroup无法提供Resource group运行所依赖的功能。
改变的功能
普通用户使用dblink模块需要提供额外的参数
当以非超级用户的身份使用dblink时,用户需要在连接字符串中提供主机名和密码作为额外的连接参数
Greenplum 5.2不再支持pgadmin4
Pgadmin4的支持从5.1的试验特性中移除,Greenplum不再支持pgadmin4。
与开源版的比较
商业版的Greenpum除了包含了开源版本的全部功能,此外还有以下增强的功能:
打包安装及部署脚本
支持了QuickLZ压缩算法
图形界面的管理工具,Greenplum Commander Center
内置的监控工具,Workload Manager
基于SQL的文本检索引擎,GPText
Greenplum 5.2.0的扩展组件
Client端工具

扩展模块
其他扩展
PXF Extension Framework
Greenplum 5.x中引进新的外部数据框架PXF(Pivotal extention framework),它部署在每个运行Segment的物理机器上,提供了对HDFS文件系统以及HIVE的支持。PXF对外部数据提供了抽象的接口,可以方便的支持各种数据源
Greenplum-Spark Connector
支持Greenplum与Spark之间的高速并行数据传输
Pivotal GPText
Pivotal Greenplum Database 5可以支持 GPText version 2.1.3 及以后的版本。GPText是Greenplum提供的文本搜索引擎,可以支持全文检索及文本分析功能
Greenplum 5.2.0支持的平台
Greenplum的服务器支持如下平台
Red Hat Enterprise Linux 64-bit 7.x
Red Hat Enterprise Linux 64-bit 6.x
SuSE Linux Enterprise Server 64-bit 11 SP4
CentOS 64-bit 7.x
CentOS 64-bit 6.x
Greenplum的java组件依赖java的如下版本
8.xxx
7.xxx
Greenplum运行时需要如下的依赖包
OpenSSL 1.0.2l (with FIPS 2.0.16)
cURL 7.54
OpenLDAP 2.4.44
Python 2.7.12
Client端工具可以支持如下平台
Red Hat Enterprise Linux 64-bit 7.x
Red Hat Enterprise Linux 64-bit 6.x
CentOS 64-bit 7.x
CentOS 64-bit 6.x
AIX 7.2 (64-bit) (Client and Load Tools only)
SuSE Linux Enterprise Server x86_64 SLES 11
Windows 10 (32-bit and 64-bit)
Windows 8 (32-bit and 64-bit)
Windows Server 2012 (32-bit and 64-bit)
Windows Server 2012 R2 (32-bit and 64-bit)
Windows Server 2008 R2 (32-bit and 64-bit)
PXF支持如下Hadoop平台
Cloudera
Hortonworks Data Platform
generic Apache Hadoop distributions
本文分享自微信公众号 - Greenplum中文社区(GreenplumCommunity)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
Greenplum5.2.0是基于MPP架构的数据库产品,新增了外部表分区支持、GPORCA优化、Resourcegroup资源管理等功能,并引入了gpbackup和gprestore等备份工具。此外,还支持从HBase读取数据和向HDFS写入文件。
380

被折叠的 条评论
为什么被折叠?



