greenplum

最新推荐文章于 2024-09-27 20:25:10 发布

原创

最新推荐文章于 2024-09-27 20:25:10 发布 · 530 阅读

1 ·

CC 4.0 BY-SA版权

本文详细介绍了Greenplum的Shared-Nothing架构、MPP处理能力及基于PostgreSQL的特性。讨论了其高可用性、扩展性和低成本优势，并提供了优化建议，包括查询转换、大表操作策略及资源管理。此外，还涵盖了数据分布、压缩、备份恢复以及锁管理等方面，强调了在实际应用中结合正规化和星型/雪花模型的优势。

Shared-Nothing Architecture
MPP(Mussively Parallel Processing) 海量并行处理
基于postgreSQL8.2，增加并行处理，支持数据仓库，bi的特性
客户端支持：psql,pgadmin3,odbc,jdbc,perl,python
private computing cloud
超大规模：理论上支持10000以上节点
虚拟化：主流虚拟化技术
高可用性：多级容错，高可用mirror技术
通用性：支持多种工具
高可扩张：增加节点
按需服务：负载管理
低成本：x86架构PC Server

安装：内存8G默认
网络带宽是i/o的倍数
系统表：gp_segment_configretion
pg_filespace

侦听进程postgres
gp实例可以绑定cpu，一般用cpu的个数是实际的1/4，如24颗cpu可以建立6个实例
缺省的配置一个实例绑定4颗cpu
一个实例可以对应多个文件空间（默认一个），一个文件空间下可以有多个表空间，一个表空间占一个目录，为了使不同性能的磁盘分开用可以建立多个文件空间。
优化：
1.大表distinct 用户group by替代
２．union用户union all+group by
3.嵌套改连接查询
4.大表更新用户，外连接+插入+truncate 替代
5.大表删除用,外连接+插入+truncate 替代
6.尽量避免过程嵌套导致锁冲突，可以用别的语言进行总体调度，如shell,java,c等
7.避免使用游标，序列，循环对数据进行整体操作。
8.避免使用高度频繁建表删表操作，容易造成字典破碎和字典锁，通过临时表和其他语言方式代替。
9.大表的hash键定义是否保证每个segment存储均匀
10.为了加快开发建议每个开发人员装一个gp虚拟机。
11.运行大数据操作时，建议写成shell脚本后台测试
12.避免不正常中断，如不正常中断 pg_cancel_backend 等3-5分钟再继续操作，避免破坏数据字典
13.批量数据处理后，要vacuum analyze ‘table’

星型模型：多为一个实体表对应多张维表，实体表位于中心，角上对应维度。
特点：有冗余数据，查询效率较高，设计维护简单
雪花模型：是星型模型的衍化，多将维表扩展，介于第三范式和星型之间。是由于星型模式在组织数据时，为减少维表层次和处理多对多关系而对数据表进行规范化处理后形成的。
优点：减少存储空间，
缺点：比较复杂，不容易理解，额外的连接将使查询性能下降。
总结：正规化，数据冗余少效率低操作维护复杂，实际应用中两者结合。中间用雪花降低冗余度，数据集市用星型模型方便数据提取和分析
雪花eg:一张销售表，有一张产品维表与之关联，有一张产品类别维表与产品维表关联
星型eg:销售表，有一张产品维表与之关联，有一张用户信息表与之关联
解读GP分布策略：
hash分布：1个或数个列用做Distribution key (DK)
随机分布（Random）:默认DK为第一列
GP查询计划：特有的操作motion(移动)
表的存储：
行存或列存：列存，必须是AO表，经常