VLDB创始人:为什么和其他相比,Greenplum是最好的?

Greenplum是一款多功能数据仓库解决方案,以其MPP架构、广泛的部署选项、开源Postgres核心、强大的企业级支持及在SQL上的运行能力脱颖而出。它不仅支持数据科学领域,还获得了Gartner的高度评价,被摩根士丹利等知名企业用于生产环境。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

获得技术资料内容,请访问Greenplum中文社区网站

本文翻译自VLDB Co-founder Paul Johnson发布于Linkedin上的《Why Greenplum Is The Best...Of The Rest》,请点击文章底部“阅读原文”查看原文链接

c2e1bbb5-400f-4212-ac51-06cd412dee45.png

面向数据仓库领域的数据库众多,带头进入这一领域的老大哥是上世纪80年代创立的Teradata。   早在20世纪80年代,Teradata公司在市场上推出了与其公司同名的分析型数据库,当时大体量的数据还在用Terabyte(TB)表示。那时,确切的说是在Teradata DBC1012上运行查询。这张图片是我1988年刚开始接触Teradata时的参考卡片。
 

5f4b4ad5-d998-47ee-b611-746783ac705e.png


在过去的几年中,数据仓库领域已经大大升温。现在有比之前更多的选择。Teradata可能仍然是市场领导者,但并非每个人都需要Teradata。   那么,如果Teradata仍然是市场上的老大哥,那么其余的呢?   在这里,我们要告诉那些一直在关注该领域的人,我们很久以来一直是Greenplum的死忠粉。   出于“推崇共享”(显然共享很重要)的价值观,我们展开阐述“ VLDB团队”成为Greenplum粉丝的十大原因。

 

1、Greenplum“可以在任何地方构建”,而不仅仅在云上构建


传统数据仓库系统针对本地物理硬件进行了优化。这并不奇怪,因为旧系统要早于AWS,Azure和Google等公有云的出现。   相比之下,Redshift,BigQuery和Snowflake等“现代数据仓库系统”是“仅运行在云上”的。这些现代数据仓库系统都不支持非云环境部署。Redshift仅适用于AWS,BigQuery仅适用于Google。用户的选择并不多 - 要么选择数据库要么选择平台,但不能两者都选。
Greenplum则是“可以在任何地方构建”的数据仓库。Greenplum可以在物理硬件、VMWare私有云和AWS或Azure或Google等公有云平台上运行。为了跟上时代前沿,还支持Kubernetes(K8S)部署。
 

4bf8085e-fb48-47b4-9fdd-eab7c35b53b7.png


只要您选择的平台支持Linux,就可以使用Greenplum。

 

2、Greenplum是MPP架构


公认的是,通用SMP数据库(例如Oracle,SQL Server和MySQL)无法一直扩展以满足数据仓库系统的需求。   与通用SMP数据库不同,Greenplum部署为“大规模并行处理”(MPP)体系结构的群集。与SMP体系不同,MPP体系结构是线性的可扩展的,因此可以不断地添加更多的计算、存储或网络带宽资源。   多亏了Teradata的朋友,MPP架构在现实世界中已有30年的成功记录。   Greenplum的可扩展MPP体系结构使您可以从单个节点开始,根据需要扩展集群,以满足不断变化的容量、吞吐量和性能需求。
 

52fd2461-7ff8-463a-bbdd-1415f441232e.png


借助经过验证的MPP架构,您始终可以扩展Greenplum集群以满足您的确切要求。

 

3、Greenplum是并行的Postgres数据库


数据仓库通常是现代企业中的关键报告、查询分析和决策支持系统。所以将此类活动赋予一个具有明确可追踪记录的系统是至关重要的。   Greenplum是一个“大规模并行Postgres”系统,并且是“ 唯一”的开源MPP数据仓库系统。
 

5762a679-198c-4e9f-9b3f-01466dc9b886.png


Postgres数据库拥有30年的历史,被誉为“世界上最先进的开源数据库”。


诸如Greenplum和Netezza(RIP)的并行Postgres数据库已有15年的历史,并且已经证明了基于Postgres构建MPP平台的优势。   Greenplum最初是在2005年从Postgres分拆出来的,从那时开始,Greenplum的内核一直保持在较老版本(Postgres 8.2)。自从2015年开源以来,Greenplum研发团队明显加快了合并Postgres新版本代码的速度,目标是在2020年合并到当前最新版本的Postgres。   在所有并行Postgres数据库系统中,Greenplum是唯一具有详细近期开发路线图的数据库,可实现最新最完整的Postgres代码整合并合理利用Postgres全球开源社区开发的新功能来完善自己。

 

4、Greenplum后面有Pivotal公司背书


Greenplum数据库软件的核心是“开源”的。该软件主要由Pivotal开发和推广。与VMWare、RSA和EMC等技术行业巨头一样,Pivotal也是Dell Technologies集团公司的一部分。   与Linux /RedHat的模式类似,Pivotal对Greenplum提供付费支持。   Pivotal支持的Greenplum版本还包括其他增值组件,例如Greenplum命令中心(GPCC,一款优秀的监控和运维工具)。
 

d0b46370-17e0-4a96-867a-c1b00ff129e3.png


Greenplum拥有Pivotal公司这个强力后台。企业级支持可用于开源Greenplum数据库。互相促进。

 

5、无评估许可费用


“概念验证”项目或POC通常是证明任何新技术选型价值的重要步骤。数据仓库系统也不例外。   Pivotal的许可模式允许用户在POC期间免费使用Greenplum数据库。   这期间,您可以在选择的基础架构上评估Greenplum的功能和性能,而无需支付任何软件许可费用。

f6d350c2-1331-4624-b7db-ba69242cec19.png

 

免费的评估许可证意味着您无需过多担心许可时间或POC功能阉割等问题,Greenplum的价值也可以迅速得到体现。

 

6、简单的基于CPU内核的定价


传统数据仓库系统通常要求购买完整的硬件/软件/存储堆栈。传统方法可能会涉及大量的前期资本支出(“CapEx”)。   现代的纯云数据仓库系统通常按使用量或“现收现付”(PAYG)定价。尽管PAYG模型避免了前期资本支出,但基于消耗的模型可能会导致不可预测且不受限制的运营支出(OpEx)。   Pivotal对于Greenplum的授权是一种简单的基于CPU内核的定价授权方式。Pivotal的基于计算的订阅模型不需要预先的资本支出,并且避免了不可预测和不受限制的运营支出的风险,而现代纯云产品通常就是这种情况。  

121eea03-fe58-464a-b6b1-b1c09f4d8060.png


同样使用简单的基于CPU内核的定价授权方式,客户或者在内部部署Greenplum或者通过公共云进行部署 - 两种方式都没有进一步的成本投入。

 

7、Greenplum在SQL上运行


自20世纪70年代以来,关系型数据库管理系统(RDBMS)和结构化查询语言(SQL)的组合一直是数据管理领域的基础。
从运行SQLite的嵌入式系统到PB规模的数据仓库集群,数据管理世界仍在SQL上运行,这是不争的事实。这不太可能在短时间发生改变(这件事,有人可以告诉Hadoop的粉丝吗?)。
作为一个Postgres集群系统,Greenplum在SQL上运行。在外界看来,它就像一台单独的Postgres数据库一样。
无须学习新的编程语言;无须增加新的ETL开发人员、BI开发人员或最终用户培训计划;无需购买新的BI工具。
Greenplum在SQL上运行,这就是您所需要的。你们都已经了解SQL了,对吧?

b29d17df-cfab-46a8-844b-123e8ff0fbaf.png

 

8、涵盖了数据科学领域

SQL非常适合传统的数据仓库场景,例如ELT样式的ETL、KPI报告、BI工具和最终用户查询,但是那些令人讨厌的新型“数据科学”场景呢?   好消息是,Greenplum还通过R、Python和Madlib覆盖了数据科学领域。   Greenplum支持存储过程语言PL/Python和PL/R。
 

173b9f63-1918-4518-84e9-28b344291e7c.png


Python和R均可用于创建用户定义函数(UDF),以提供可扩展的数据库内数据科学能力。
Apache Madlib是一个开源的数学、统计和机器学习库,可与Greenplum一起使用,以处理结构化和非结构化数据,以提供可扩展的数据库内分析能力。
 

31d1e021-c9ee-4149-9612-88b932b8bfb7.jpg


可以使用Madlib开发基于SQL的算法,而无需将Greenplum的数据传输到别的工具再进行数据科学算法处理。
集成了Python、R和SQL的Madlib库可用于在Greenplum数据库内开发和部署数据科学应用程序,而无需额外费用支出。

 

9、Gartner高度评价Greenplum


数十年来,技术行业对分析师的评价深信不疑。Gartner几乎可以肯定是技术领域中最具影响力的分析公司。   Gartner于2019年3月19日发布的“传统数据仓库”用户用例中,对比列出了主要的数据仓库产品/服务供应商所处的位置。   毫不奇怪,Teradata以3.73分(满分5分)排名第一。Pivotal Greenplum的得分为3.49,排名第三,仅次于Oracle Exadata,它的得分为3.54,排名第二。

 

根据Gartner的调查,Greenplum的排名高于SAP HANA(3.35)、Google BigQuery(3.27)、IBM DB2(3.22)、Snowflake(3.22)、Amazon Redshift(3.16)和Microsoft Azure SQL数据仓库(3.15)。   考虑到传统数据仓库用例积累时间较长,也许不足为奇,相比之下,Hadoop供应商(MapR,Hortonworks和Cloudera)的得分都低于3.0。
 

3cdf1a7e-e78c-4309-ac9b-9b4084874152.png


Gartner在“传统数据仓库”用例中对Greenplum给予了很高的评价。除非您需要Oracle Exadata系统(现在谁还需要呢?),否则只有Teradata配处于Greenplum前列。

 

10、最适合生产的系统 

“一切工作都可以在PowerPoint完成”这一事实可能是技术行业中的一个大问题。不仅如此!   POC通常是在购买产品之前验证技术的潜在风险点。POC的顺利完成无疑可以增加信心,但是要确保数据仓库技术可以应付“鼎盛”时期的生产状态,仍然需要翻越巨大的鸿沟。
在VLDB团队中,我们推崇“用行动展示给我,不要只动嘴”的法则。我们也确实如推崇的法则那样挑剔!   使用Greenplum来应对其长期业务负载的用户包括摩根士丹利和Conversant Media。   摩根士丹利的Greenplum生产环境由数百台服务器组成,并支持20PB的原始数据(压缩后10PB)。类似的规模,Conversant的Greenplum系统单表规模已经达到上亿亿…行(特别特别多)。
为什么这件事这么重要?像MorganStanley和Conversant这样的最终用户可以提供给您强有力的证据,证明Greenplum已经有能力应对您苛刻的生产中的工作负荷。   就像那个男人说的:   “无论我们想出什么用例,以及想出什么方式来更好地理解用户,Greenplum都可以做到这一点。”   ——Conversant负责数据仓库的副总裁John Conley

 

Greenplum摘要

这样已经足够证明了 - 就数据仓库平台而言,这是我们认为Greenplum是和其他相比最佳的十大理由。

 

从最初的Greenplum开始,到现在已经超过15年的验证,我们一直是Greenplum的用户。 多年来,随着我们对产品和支持的信心不断增强,它已逐渐成为VLDB的默认平台。 希望本文讲述的这些原因能解除大家的困惑。

译者简介

30499d91-9bd5-4980-a182-e955127f073e.png

 

苑泽福

 

Greenplum中文社区成员,山东辉鸿泛在电子科技有限公司技术总监。从业十几年,曾供职于鼎兴、瀚高,拥有丰富的数据库开发运维经验,近年来一直专注于Greenplum数据库,主导并完成了多个基于Greenplum的数据平台落地。目前专注于物联网产品研发,处于创业阶段。


 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值