linux安装greenplum数据库记录

最新推荐文章于 2023-10-10 18:48:01 发布

！WAIVE

最新推荐文章于 2023-10-10 18:48:01 发布

阅读量515

点赞数 1

CC 4.0 BY-SA版权

分类专栏： spark greenplum 大数据文章标签： spark

本文链接：https://blog.youkuaiyun.com/qq_42442421/article/details/103630092

大数据同时被 3 个专栏收录

7 篇文章

订阅专栏

spark

3 篇文章

订阅专栏

greenplum

1 篇文章

订阅专栏

本文详细介绍了Greenplum数据库的安装步骤，包括从官网下载安装包、配置Linux环境、解决Python版本冲突等问题。同时，针对Spark与Greenplum数据库的连接常见错误进行了分析，并提供了解决方案，如修改pg_hba.conf文件和使用内置函数处理时间类型数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.下载安装包
在官网上下载需要的版本,注意在官网注册时要用正规的邮箱和注册名,不然会被pvital公司划分为无效账户,此时就没有权限下载所有产品了
下载网址:https://network.pivotal.io/products/pivotal-gpdb/
2.将安装包传到linux上,按照该博客:https://blog.youkuaiyun.com/weberhuangxingbo/article/details/88741416 操作即可
3.安装greenplum数据库需要python环境,最好是python3,不要python2和python3同时安装,会出现pip安装模块报错.
4.安装完成后即可启动使用gp

遇到的问题:1.pip报错,原因是pyhthon2和python3共存,但是只安装了pip2
2.配置完的环境变量记得source,尤其是greenplum数据库自带的脚本需要先source一下,不然启动的时候报错
3.连接命令psql -h ip -p 5432 -d 用户名
4.用spark的jdbc连接gp时,会报no pg_hba.conf entry for host “192.168.37.4”，user “postgres”，database “mapbox”，SSL off错误,此时找到自己创建的gpdata目录,找到所有节点和master的pg_hba.conf文件,然后添加host all all 报错ip/32 trust即可,添加完成后再重启数据库
5.greenplum官网介绍的spark-gp连接器不好用,会报一个’'不存在于schema.tablename的错.未解决该错误.使用spark.read.jdbc可以完成读取
6.读取gp表的time类型时,用spark引擎会将time类型转化为timestamp类型的DataFrame,并且在时间前面默认加上1970-01-01,此时如果只需要时间,可以用 df = df.withColumn(elem.field, substring(df.col(elem.field).cast(StringType), 12, 19).as(elem.field)) 内置函数substring取出后面的时间.
本文章安装方法转载自:https://blog.youkuaiyun.com/weberhuangxingbo/article/details/88741416