linux安装greenplum数据库记录

本文详细介绍了Greenplum数据库的安装步骤,包括从官网下载安装包、配置Linux环境、解决Python版本冲突等问题。同时,针对Spark与Greenplum数据库的连接常见错误进行了分析,并提供了解决方案,如修改pg_hba.conf文件和使用内置函数处理时间类型数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.下载安装包
在官网上下载需要的版本,注意在官网注册时要用正规的邮箱和注册名,不然会被pvital公司划分为无效账户,此时就没有权限下载所有产品了
下载网址:https://network.pivotal.io/products/pivotal-gpdb/
2.将安装包传到linux上,按照该博客:https://blog.youkuaiyun.com/weberhuangxingbo/article/details/88741416 操作即可
3.安装greenplum数据库需要python环境,最好是python3,不要python2和python3同时安装,会出现pip安装模块报错.
4.安装完成后即可启动使用gp

遇到的问题:1.pip报错,原因是pyhthon2和python3共存,但是只安装了pip2
2.配置完的环境变量记得source,尤其是greenplum数据库自带的脚本需要先source一下,不然启动的时候报错
3.连接命令psql -h ip -p 5432 -d 用户名
4.用spark的jdbc连接gp时,会报no pg_hba.conf entry for host “192.168.37.4”,user “postgres”,database “mapbox”,SSL off错误,此时找到自己创建的gpdata目录,找到所有节点和master的pg_hba.conf文件,然后添加host all all 报错ip/32 trust即可,添加完成后再重启数据库
5.greenplum官网介绍的spark-gp连接器不好用,会报一个’'不存在于schema.tablename的错.未解决该错误.使用spark.read.jdbc可以完成读取
6.读取gp表的time类型时,用spark引擎会将time类型转化为timestamp类型的DataFrame,并且在时间前面默认加上1970-01-01,此时如果只需要时间,可以用 df = df.withColumn(elem.field, substring(df.col(elem.field).cast(StringType), 12, 19).as(elem.field)) 内置函数substring取出后面的时间.
本文章安装方法转载自:https://blog.youkuaiyun.com/weberhuangxingbo/article/details/88741416

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值