
Greenplum组件工具
文章平均质量分 75
Greenplum拥有丰富的组件,帮助用户升级、优化、备份、监控...
Greenplum中文社区
Greenplum 是全球首个开源、多云大数据分析平台,被广泛运用于大规模商业智能和分析中,具有极高的稳定性,大量数百节点集群为全球2000强企业生产系统提供服务。被Gartner于2019年列为全球十大经典和实时数据分析产品中唯一开源数据库。
展开
-
Greenplum一体机硬件配置正式开源
了解更多Greenplum相关内容,欢迎访问Greenplum中文社区网站 2015年,Greenplum数据库宣布开源。如今,DELL将Greenp...原创 2020-11-16 09:30:00 · 529 阅读 · 0 评论 -
PPT | Greenplum人工智能工具集—MADLib与图数据分析
2019年6月28日,第二场《Greenplum:从大数据战略到实现》读者技术沙龙在上海成功举行。今天将和大家分享的是Pivotal资深产品经理吴疆做的演...原创 2019-07-11 18:30:00 · 273 阅读 · 1 评论 -
PPT |【Greenplum6新特性】在线扩容工具GPExpand剖析
今天将和大家分享的是在5月10日,首场《Greenplum:从大数据战略到实现》读者技术沙龙中,Pivotal中国研发中心资深软件工程师杜佳伦做的精彩演讲《Gr...原创 2019-05-30 17:31:00 · 276 阅读 · 0 评论 -
PPT | GPDB文本处理组件——GPText 应用解析与实战
2019年5月10日,首场《Greenplum:从大数据战略到实现》读者技术沙龙在Pivotal北京办公室成功举行。活动中Pivotal中国研发中心Greenp...原创 2019-05-17 10:16:00 · 413 阅读 · 1 评论 -
【Greenplum 6 新功能】在线扩容工具GPExpand
本文转自Greenplum中文社区官方网站:greenplum...原创 2019-03-26 11:25:00 · 182 阅读 · 0 评论 -
Greenplum 结合 Roaringbitmap 实现亿级会员十万级标签毫秒级查询
在大数据处理和应用场景中经常需要从亿级甚至十亿级会员中搜索出符合特定标签的会员.很多企业都会使用 HBase 或者 Hive + Hadoop 的方式,这样的方...原创 2019-02-21 13:59:00 · 599 阅读 · 0 评论 -
细说Greenplum时空数据分析
技术长文 ...原创 2019-01-31 16:15:00 · 1270 阅读 · 0 评论 -
谈谈Greenplum的人工智能应用场景
...原创 2019-01-10 17:45:00 · 329 阅读 · 0 评论 -
为您详细讲解Greenplum 5 智能化运维
...原创 2018-12-27 11:18:00 · 342 阅读 · 0 评论 -
Postgres中国技术大会2018 | Greenplum 5 智能运维管理与展望(内含PPT)
2018年12月15-16日,Postgr...原创 2018-12-20 14:28:00 · 141 阅读 · 0 评论 -
PPT | 新一代Greenplum集群迁移工具gpcopy
11月23日,Greenplum新特性专场技术研讨会成都专场顺利举行。在本次研讨会中,Pivotal 中国研发中心资深软件工程师李晓亮做了《新一代Greenpl...原创 2018-12-04 18:01:00 · 205 阅读 · 0 评论 -
用JFR和JMC分析SolrCloud集群性能瓶颈
在开发甚至是生产过程中,我们的程序可能会满足不了预想中的性能要求。这种情况下我们就需要分析程序中的性能瓶颈,并针对性地解决问题。性能瓶颈的定位不仅可以在开发过程...原创 2018-11-16 14:16:00 · 422 阅读 · 0 评论 -
数据科学实践
在AI的浪潮下,机器学习在企业级计算领域的应用愈加广泛。企业大量核心数据都存储在关系型数据库中,针对海量数字资产应用机器学习技术的一个痛点问题是存储型系统和不同...原创 2018-11-13 15:39:00 · 301 阅读 · 0 评论 -
新一代Greenplum集群迁移工具数据 gpcopy 升级到 1.1.0
...原创 2018-11-07 17:53:00 · 224 阅读 · 0 评论 -
GPKafka - Kafka流数据导入工具
在10月26日下午举办的北京大数据专场活动中,Pivotal 中国研发中心研发工程师邱培峰为大家带来了《GPKafka - Kafka流数据导入工具...原创 2018-11-02 15:31:00 · 419 阅读 · 0 评论 -
数据库查询原来长这样!| Greenplum新功能—可视化执行计划
Greenplum Command Center 4.2中首次推出了全新的beta功能——可视化执行...原创 2018-10-25 11:37:00 · 367 阅读 · 0 评论 -
GPText 实践
通过本次分享大家可以了解商业版Greenplum中的重要组件——GPText,它有着强大的并行化文本处理和分析计算能力。 GPText——...原创 2018-10-17 15:47:00 · 268 阅读 · 0 评论 -
Greenplum的流数据加载
...原创 2018-09-15 09:04:00 · 318 阅读 · 0 评论 -
【2018大数据、容器、云原生应用主题系列技术研讨会第二场 PPT】Greenplum on PKS
7月20日(上周五)2018大数据、容器、云原生应用主题系列技术研讨会第二场在上海成功举行。 今天和大家分享的是Pivotal中国研发中心Gre...原创 2018-07-26 15:48:00 · 105 阅读 · 0 评论 -
教您正确使用最新版本的Greenplum 官方监控工具(GPCC)
Greenplum Command Center,或者简称GPCC,是Greenplum原生的图形化运维管理工具。在最近3年来的开发中,基于全新的界面和用户体验,陆续推出了监控、历史数据、管理的功能,在众多商业用户上得到了广泛的应用和认可。随着Greenplum 6.0的发布,Greenplum Command Center(也称为GPCC)也在新的版本中抵达了一个新的里程碑。我们跳过了版...原创 2020-03-24 17:44:54 · 2633 阅读 · 0 评论 -
【Greenplum避坑指南 III 】如何在服务器上启用core generation?
在程序异常或者崩溃时,cores对于debugging非常有用。我们推荐大家在master和segment服务器上启用core generation。本文将详细描述如何在linux系统上开启这项设置。在操作之前,我们首先确认一下服务器上和core文件相关的当前设置。你可以使用以下命令来确认core generation是否已经被禁用。以下内容表示有效禁用了core file generat...原创 2020-03-20 11:37:48 · 814 阅读 · 0 评论 -
Greenplum圈人神器roaringbitmap 发布v0.2.66
Roaringbitmap是一种高效的Bitmap压缩算法。Bitmap位计算非常适合大数据基数计算,常用于去重、标签筛选、时间序列等计算中。GPDB-roaringbitmap插件将Roaringbitmap功能集成到Greenplum数据库中,将Roaringbitmap作为一种数据类型提供原生的数据库函数、操作符、聚合等功能支持。使用gpdb-roaringbitmap插件的用户注意了...原创 2020-04-02 16:10:57 · 683 阅读 · 0 评论 -
【实录】首次利用GPCC历史数据调优Greenplum 完结篇
本文作者Pivotal Greenplum工程技术经理王昊所在的Greenplum研发部门近期在帮助客户解决一个全局性能问题,并通过本文记录了分析过程和解决思路。我们在【实录】首次利用GPCC历史数据调优Greenplum 第一部分中帮助大家了解了GPDB集群的整体性能特征,在【实录】首次利用GPCC历史数据调优Greenplum 第二部分中分析了查询负载整体情况。今天,将为大家带来《首次利用G...原创 2020-03-17 19:59:37 · 1243 阅读 · 2 评论 -
【实录】首次利用GPCC历史数据调优Greenplum 第二部分
数据库性能分析和优化是一个难题,作者Pivotal Greenplum工程技术经理王昊所在的Greenplum研发部门近期正好在解决一个实际用户的全局性能问题,本文记录了分析过程和解决思路。【实录】首次利用GPCC历史数据调优Greenplum 第一部分帮助大家了解了GPDB集群的整体性能特征,现在为大家带来第二部分——分析查询负载整体情况的干货内容。第二部分,分析查询负载整体情况...原创 2020-03-17 13:39:24 · 522 阅读 · 0 评论 -
【实录】首次利用GPCC历史数据调优Greenplum 第一部分
数据库性能分析和优化是一个难题,笔者所在的Greenplum研发部门近期正好在解决一个实际用户的全局性能问题,本文记录了分析过程和解决思路。本案例是第一次对实际客户的生产库以GPCC历史数据为核心剖析性能问题,因此有一定的开创性和借鉴意义,故撰文供研发同事、现场工程师、支持工程师参考,同时也适合具备一定GP基础并希望提高的读者阅读。同时为了保护客户的商业秘密,本文不透露任何关于该商业用户的名称、...原创 2020-03-17 11:45:41 · 721 阅读 · 1 评论 -
Greenplum GPCC这个新功能,作为DBA的你一定喜欢!
Greenplum Command Center,或者简称GPCC,是Greenplum原生的图形化运维管理工具。在最近3年来的开发中,基于全新的界面和用户体验,陆续推出了实时查询监控、历史数据收集、工作负载管理、邮件告警等功能,在众多商业用户上得到了广泛的应用和认可。在GPCC 4.9版本中,推出了最新功能数据表浏览器(Table Browser)。通过数据表浏览器,数据库管理员可以通过...原创 2020-03-09 17:38:03 · 798 阅读 · 2 评论 -
Solr Cache最佳实践帮你轻松调优
一、背景Apache Solr是被广泛使用的开源搜索引擎,Greenplum DB的全文检索组件Greenplum Text就是基于其构建的:Greenplum Text简写为GPText,它将Greenplum数据库与Apache SolrCloud企业搜索和MADlib分析库进行紧密集成,从而为客户提供了大规模分析处理和业务决策支持,主要功能包括免费的文本搜索以及对文本分析的支持。...原创 2020-03-09 14:41:19 · 408 阅读 · 0 评论 -
Greenplum 6 磁盘配额管理工具“Diskquota”
Diskquota是什么Diskquota extension 是 Greenplum6.0 提供的磁盘配额管理工具,它支持控制数据库 schema 和 role 的磁盘使用量。当 DBA 为 schema 或者 role 设置磁盘配额上限后,diskquota 工作进程负责监控该schema和role的磁盘使用量,并维护超出配额上限的schema和role的黑名单。当用户试图往黑名单中的schema或者role中插入数据时,操作会被禁止。Diskquota的典型应用场景是对于企业内部多个部门共享一个G原创 2020-05-21 13:53:41 · 1124 阅读 · 3 评论 -
Greenplum在线扩容工具“GPExpand”最详解读
Gpexpand是Greenplum数据库的扩容工具,可以为集群增加新节点从而可以存储更多的数据,提供更高的计算能力。 Greenplum 5及之前,集群扩容需要停机增加新节点,然后对表数据做重分布。因为集群大小已经改变,所以重分布之前要先将所有哈希分布表改成随机分布,然后再按照新的集群大小重新计算哈希值并重新分布。所以,旧的扩容技术存在如下几个问题:1. 需要停机,集群无法在扩容期间提供服务。2. 数据重分布过程集群性能差。随机分布表因为不能确定数据分布规律,无法对查询做优化。3. 虽然表的重分布原创 2020-05-14 11:28:56 · 1578 阅读 · 0 评论 -
Greenplum 周边工具解析 - Kettle
Greenplum 作为全球领先的开源大数据平台,被广泛应用于包括金融、保险、证券、通信、航空、物流、零售、媒体、政府、医疗、制造、能源等行业。而将多个源端数据抽取、转换并加载到 Greenplum 数据库可能是目前很多用户较为关心的场景。在数据集成方面,除了自己写程序或脚本来实现特定的功能,有一款顺手的ETL工具能大大提升工作效率。目前市场上现存的ETL工具或有部分ETL的CDC工具五花八...原创 2020-05-07 15:45:40 · 1690 阅读 · 2 评论 -
如何用gpss实现MySQL到Greenplum的增量同步
数据同步一般分为两种方式:全量和增量。增量数据是一类典型的流数据,基于日志的增量同步几乎已经是所有数据库的标配,它可以减少常规ETL工作对系统带来的影响,并大大降低数据的延迟。作为Greenplum的流计算引擎,Greenplum Stream Server(gpss)能将不同源端的增量数据同步到Greenplum中。为更好的支持这一应用场景,即将发布的gpss 1.3.6 对增量同步的功能做了...原创 2020-05-07 15:15:31 · 981 阅读 · 2 评论 -
提高您的流数据处理能力—— Greenplum的流计算功能解析
在追求数据时效性的今天,如何高效处理低延时的流数据,逐渐成为大家越来越关注的问题。 流数据处理能力已经成为衡量大数据平台计算实力的一个重要指标。Greenplum作为最先进的开源大数据平台,天生具备处理复杂问题的优势。Pivotal的研发团队在开源Greenplum的基础上,提供了新的高速流数据引擎gpKafka,从而将Greenplum强大的SQL处理能力引入到流计算领域。本文重点介绍目前主要...原创 2020-04-27 14:09:50 · 1394 阅读 · 0 评论 -
如何在Greenplum中并行运行R程序——Greenplum R library介绍
引言本文将介绍一个全新的基于Greenplum的R语言开发函数库Greenplum R。Greenplum R提供了gpapply和gptapply两个函数,可以把R语言的程序发送至Greenplum端并行执行,从而避免数据的移动和提高R语言的执行效率。R语言是一个开源的专注于统计分析的程序设计语言,具有丰富的统计分析扩展,在大数据浪潮中,R语言也被数据分析师广泛的应用于大数据分析中。各大数据...原创 2020-04-23 16:34:48 · 474 阅读 · 0 评论 -
全新Greenplum集群传输工具—GPCOPY 2.1.0正式发布
GPCOPY是新一代的支持Greenplum集群之间快速高效传输数据的工具。作为Greenplum集群数据传输的官方首选配套工具,GPCOPY除了具有高速稳定易用的特点外,还支持不同版本Greenplum集群之间的传输(当然支持同版本之间的传输)。GPCOPY支持从GP4.3.x到GP 5.x、GP5.x到GP6.x、甚至GP4.3.x到GP6.x的数据传输。它也同时支持同等规模集群和不等规模集群...原创 2020-04-13 14:59:04 · 610 阅读 · 0 评论 -
手把手教您借助GPCC查看表的分布和分区策略
Greenplum是一个大规模并行处理数据库,由一个master和多个segment组成。在之前推送的文章《Greenplum数据分布和分区策略》中,我们介绍了在Greenplum上,数据是按照什么样的分布策略分布于各个segment上。既然表的这些分布和分区策略如此重要,您可能会问:我们如何监控这些情况,以及及早发现异常。Greenplum Command Cente(GPCC)可以很好的解...原创 2020-03-27 16:16:05 · 646 阅读 · 0 评论 -
Greenplum 带ORCA 优化器的编译安装解析
ORCA是开源的Postgres和Greenplum的优化器,相比于Greenplum和Postgres内置的优化器,ORCA在复杂查询以及分区表等场合有非常好的性能提升。这里介绍下如何使Greenplum启用ORCA优化器,以及如何运行Greenplum的测试用例installcheck-world。设置开发环境在开始之前需要装编译和运行的依赖,包括Greenplum和ORCA的依...原创 2020-03-26 13:37:38 · 870 阅读 · 0 评论 -
Greenplum-Spark Connector 介绍
1. 前序Greenplum 是一款优秀的 mpp 数据库产品,官方推荐了几种将外部数据写入 Greenplum 方式,包含:通用的 Jdbc,gpload 以及 Pivotal Greenplum-Spark Connector 等。Jdbc:Jdbc 方式,写大数据量会很慢。gpload:适合写大数据量数据,能并行写入。但其缺点是需要安装客户端,包括 gpfdist等依赖,安装起来很麻烦。需要了解可以参考 gpload。Greenplum-Spark Connector:基于 Spark并行处原创 2020-07-17 18:01:24 · 3212 阅读 · 2 评论 -
基于Greenplum+Kafka的实时数据处理
在追求数据时效性的今天,如何高效处理低延时的流数据,逐渐成为大家越来越关注的问题。流数据处理能力已成为衡量大数据平台计算实力的一个重要指标。Greenplum研发团队在开源Greenplum的基础上,提供了新的高速流数据引擎GPKafka,从而将Greenplum强大的SQL处理能力引入到流计算领域。来自掌数科技的吴贤川将在本视频中为大家详细解析基于Kafka+Greenplum的实时数据处理。基于Kafka+Greenplum的实时数据处理???? 手把手教你GPkafka实战 ????您可以通原创 2020-07-17 17:22:02 · 1457 阅读 · 0 评论 -
「揭秘GP」Greenplum 的人工智能应用场景:MADlib、GPText、GPU
Pivotal Greenplum ——全世界首个开源、多云数据平台,专为高级分析而打造。作为一个开放的数据计算平台,它集成了对数据进行挖掘和分析的高级功能,通过这些功能,用户可以直接在Greenplum数据库里使用高级分析算法,对数据进行分析和处理。本篇文章将从最近较热的人工智能应用场景说起,详细为大家介绍如何运用Greenplum的内置算法进行机器学习,帮助企业或用户从1到N,快速处理分析海量数据,获得行业洞察。Greenplum库内集成的高级分析功能首先来讲Greenplum,我相信大家对Gr原创 2020-07-03 16:31:44 · 930 阅读 · 0 评论 -
「揭秘GP」Greenplum新一代数据迁移工具gpcopy,更快更稳更易用
gpcopy 是新一代的 Greenplum 数据迁移工具,可以帮助客户在不同集群间,不同版本间,快速稳定地迁移数据。同上一代迁移工具 gptransfer 相比,gpcopy 具有巨大的优势:更快,更稳定,更易用,功能更丰富。另外,gpcopy 只包含在商业版本中。gpcopy 可以干什么gpcopy 可以迁移整个集群,也可以具体传输某些数据库、某些命名空间和某些表;可以从文件读取传输或者略过的表,支持正则表达式;可以略过、追加或者替换目标集群的数据;可以并行传输;可以只迁移结构信息;可以静默自动化执原创 2020-06-24 15:37:21 · 1027 阅读 · 0 评论