
GreenPlum
hmxz1024
这个作者很懒,什么都没留下…
展开
-
Greenplum介绍
Greenplum是一种基于PostgreSQL的分布式数据库,其采用shared-nothing架构,主机、操作系统、内存、存储都是自我控制的,不存在共享。Greenplum架构Greenplum主要由Master节点、Segment节点、interconnect三大部分组成。master节点:1.master节点是外边用户访问greenplum的入口。用户并不与segment节点发生任...原创 2018-09-25 15:50:49 · 2377 阅读 · 0 评论 -
Greenplum集群迁移与扩容实践
记录一下一次针对客户的集群迁移与扩容过程,针对该过程中的坑做一下总结。原创 2019-05-13 14:25:47 · 1651 阅读 · 3 评论 -
Greenplum集群迁移--gptransfer的使用
在使用greenplum时,当想将旧的集群中的数据迁移到新的集群中,有多种方法。如使用gp_dump命令进行数据的备份、拷贝与恢复,但相比较来说,还是使用gptransfer工具更简单方便,且更高效。总述gptransfer迁移工具把Greenplum数据库元数据从一个Greenplum数据库传输到另一个Greenplum数据库,允许用户迁移整个数据库的内容或者选中的表到另一个数据库。源数据库...原创 2019-02-23 11:24:40 · 2318 阅读 · 0 评论 -
Greenplum实践总结
实际使用greenplum中的一些问题或知识点,做一个汇总,会不断进行更新。1.对于greenplum,当创建表时,若指定一个primary key,会将其默认设置为索引,此时,当进行大量数据的插入时,由于索引的存在,会导致出书时间变长。另:当进行大量数据的插入时,需先删除掉索引,待数据插入完成后再建立索引。2.在greenplum中,外部表不能指定 not null,也不能指定primar...原创 2019-02-16 14:45:37 · 2104 阅读 · 1 评论 -
greenplum常用管理工具汇总(一)
Greenplum数据库管理工具位于 $GPHOME/bin中。本篇介绍了:gpconfig,gpstart,gpstate,gpstop,gpssh,gpssh-exkeys,gpexpand,gpcheck,gpcheckperf,gpseginstall。gpconfig用以在Greenplum数据库系统中所有的Segment上设置服务器配置参数。描述gpconfig工具允许用户在...原创 2019-01-14 20:06:24 · 5156 阅读 · 1 评论 -
Greenplum:你不可不知的实施与维护最佳实践
本文转载自:https://dbaplus.cn/news-21-261-1.html近两年,国内的大数据市场逐渐成熟,有真实的大数据处理需求的企业数量呈现爆炸性的增长,从传统的数据库产品往MPP数据库转型的增长势头十分迅猛。Greenplum作为MPP产品的领头羊,具有较低的学习成本,得到了国内大量客户的青睐。GP实施之道国内的一位Greenplum大拿(也是翻译Greenplum官方资料...转载 2019-01-08 20:13:51 · 2498 阅读 · 0 评论 -
Greenplum-SQL调优
本文转载自:https://blog.youkuaiyun.com/u012948976/article/details/52695397数据库查询准备VACUUMvacuum只是简单的回收空间且令其可以再次使用,没有请求排它锁,仍旧可以对表读写vacuum full执行更广泛的处理,包括跨块移动行,以便把表压缩至使用最少的磁盘块数目存储。相对vacuum要慢,而且会请求排它锁。定期执行:在日常维护...转载 2019-01-08 19:29:33 · 571 阅读 · 0 评论 -
Greenplum集群扩展
在实际应用中,为了放大性能和存储能力,会通过向阵列增加主机来扩展用户的Greenplum系统。和要求大量停机时间来转储和恢复数据的数据仓库系统不同,扩展一个Greenplum数据库系统是一种最小化停机时间的分阶段处理。在数据被重新分布时,常规和ad hoc负载可以继续并且事务一致性也能被维护。管理员可以安排分布活动以适合正在进行的操作并且可以按需暂停和继续。表可以被排名,这样数据集可以以一种优先...原创 2019-01-13 20:50:55 · 1214 阅读 · 0 评论 -
greenplum列存
Greenplum既支持行存储,也支持列存储。行存储优劣分析Greenplum行存储(堆表)的优势数据顺序写入BLOCK中,持续写入的情况下,一条记录命中在一个块中,IO开销相对比较小,速度较快。查询多个字段时,因为记录在一个块中命中,速度较快。Greenplum行存储(堆表)的劣势查询少量字段时,也要访问整条记录,造成一定的IO浪费。行存储的压缩比有限。行存储适合什么应用场景行...原创 2019-01-07 22:43:05 · 3475 阅读 · 0 评论 -
pg_hba.conf文件说明与配置
客户端访问和认证受到标准的PostgreSQL的基于主机的认证文件(pg_hba.conf)的控制。在Greenplum数据库中,Master实例的pg_hba.conf文件控制对Greenplum数据库系统的客户端访问及认证。Greenplum数据库的Segment也有pg_hba.conf文件,它们被配置来只允许来自Master主机的客户端连接并且永不接受客户端连接。不要在Segment上更改...原创 2018-11-04 17:36:22 · 28599 阅读 · 2 评论 -
GreenPlum角色与权限控制
Greenplum数据库使用角色(role)管理数据库访问权限。角色角色的概念把用户(user)和组(group)的概念包括在内。一个角色可能是一个数据库用户、一个组或者两者兼具。角色可以拥有数据库对象(例如表)并且可以那些对象上的特权分配给其他角色来控制对对象的访问。角色可以是其他角色的成员,因此一个成员角色能够继承其父角色的对象特权。每一个Greenplum数据库系统都包含一组数据库角色...原创 2018-11-04 16:39:53 · 6149 阅读 · 0 评论 -
GreenPlum分区表原理
Greenplum分区表的原理和PostgreSQL的原理相同,都是把一张大表按照适合的维度进行分割,通过表的继承,规则,约束实现。与PostgreSQL分区表的区别:在PostgreSQL中,通过一个父表,多个子表来实现分区表。插入数据时,需要手动向子表插入数据,如果向父表插入数据,则直接会被插入到父表中。在GPDB中,直接向父表插入数据,便可以根据约束直接自动插入到对应的子表中,当分区子表...原创 2018-10-27 19:47:59 · 5760 阅读 · 1 评论 -
GreenPlum数据库集群故障检测与恢复
Segment镜像概述当Greenplum数据库高可用性被启用时,有两种类型的Segment:主Segment和镜像Segment,每个主Segment都有一个对应的镜像Segment。主Segment从Master接收请求来对该Segment的数据库做更改并且接着把那些更改复制到对应的镜像。如果主Segment变成不可用,数据库请求会被转移到镜像Segment。Segment镜像采用了一种物...原创 2018-10-24 17:56:08 · 4347 阅读 · 1 评论 -
GreenPlum数据分布策略
两种分布方式在Greenplum数据库中所有表都是分布式的,所以每一张表都会被切片,每个segment实例数据库会存放相应的数据片段。切片(分布)规则可以由用户定义,可选的方案有根据用户对每一张表指定的hash key进行的Hash分布或者选择随机分布。Hash分布当选择Hash分布策略时,可以指定表的一列或者多列组合。greenplum会根据指定的Hash key列计算每一行数据对应的Ha...原创 2018-10-21 16:32:02 · 3136 阅读 · 0 评论 -
大数据云平台 Greenplum:多租户篇
转载自:https://digitx.cn/2018/05/15/greenplum_multi_tenancy/什么是多租户多租户指一套系统能够支撑多个租户。一个租户通常是具有相似访问模式和权限的一组用户,典型的租户是同一个组织或者公司的若干用户。要实现多租户,首先需要考虑的是数据层面的多租户。数据层的多租户模型对上层服务和应用的多租户实现有突出影响。本文重点介绍数据层多租户及Greenp...转载 2018-10-25 20:02:31 · 1339 阅读 · 0 评论 -
GreenPlum中的vaccum操作及臃肿管理
更新或者删除一行会在表中留下该行的一个过期版本。当一个过期的行不在被任何活跃事务引用时,它可以被移除从而腾出其所占用的空间进行重用。当表中的过期行累积后,为了容纳新的行就必须扩展磁盘文件。这样执行查询所需的磁盘I/O就会增加,从而性能受到影响。这种情况被称为膨胀,并且应该通过定期清理表来解决。VACUUM命令会标记过期行所使用的空间为可以被重用。VACUUMVACUUM命令可以与其他查询并...原创 2018-10-22 13:59:40 · 2232 阅读 · 0 评论 -
GreenPlum数据备份与恢复
GreenPlum数据迁移GreenPlum数据备份与恢复gp_dump是GP并行备份的备份工具,在运行gp_dump的时候master与所有的segment节点都开始备份(standby节点和segment节点中的mirror实例不参加备份),数据文件都是放在各个的节点服务器上,消耗的时间和数据量最大的、消耗时间最长的节点有关。常用的gp_dump参数有:-h ...原创 2018-10-18 20:15:52 · 4095 阅读 · 2 评论 -
GreenPlum数据加载方式总结
在GreenPlum中有以下几种方式来进行数据的加载,包括通过insert命令来实现少量数据的导入;通过copy命令来实现数据的导入导出;通过建立外部表及gpfdist实现数据的导入;通过gpload实现数据的导入导出;下面将分别介绍这几种数据加载方式。insert命令通过简单的insert语句来实现,常用于少量数据的导入,当数据量较大时,会很耗时,从而不适合使用。insert...转载 2018-09-20 21:54:50 · 3097 阅读 · 0 评论 -
Greenplum死锁定位解决
锁机制greenplum采用了postgresql的锁机制,对于表,有以下几种锁及互斥机制:两个事务在同一时刻不能在同一个表上持有属于相互冲突模式的锁(但是,一个事务决不会和自身冲突。例如,它可以在同一个表上获得ACCESS EXCLUSIVE锁然后接着获取ACCESS SHARE锁)。非冲突锁模式可以由许多事务同时持有。请特别注意有些锁模式是自冲突的(例如,在一个时刻ACCESS EXCL...原创 2019-06-17 23:13:57 · 5241 阅读 · 0 评论