1.下载安装包
在官网上下载需要的版本,注意在官网注册时要用正规的邮箱和注册名,不然会被pvital公司划分为无效账户,此时就没有权限下载所有产品了
下载网址:https://network.pivotal.io/products/pivotal-gpdb/
2.将安装包传到linux上,按照该博客:https://blog.youkuaiyun.com/weberhuangxingbo/article/details/88741416 操作即可
3.安装greenplum数据库需要python环境,最好是python3,不要python2和python3同时安装,会出现pip安装模块报错.
4.安装完成后即可启动使用gp
遇到的问题:1.pip报错,原因是pyhthon2和python3共存,但是只安装了pip2
2.配置完的环境变量记得source,尤其是greenplum数据库自带的脚本需要先source一下,不然启动的时候报错
3.连接命令psql -h ip -p 5432 -d 用户名
4.用spark的jdbc连接gp时,会报no pg_hba.conf entry for host “192.168.37.4”,user “postgres”,database “mapbox”,SSL off错误,此时找到自己创建的gpdata目录,找到所有节点和master的pg_hba.conf文件,然后添加host all all 报错ip/32 trust即可,添加完成后再重启数据库
5.greenplum官网介绍的spark-gp连接器不好用,会报一个’'不存在于schema.tablename的错.未解决该错误.使用spark.read.jdbc可以完成读取
6.读取gp表的time类型时,用spark引擎会将time类型转化为timestamp类型的DataFrame,并且在时间前面默认加上1970-01-01,此时如果只需要时间,可以用 df = df.withColumn(elem.field, substring(df.col(elem.field).cast(StringType), 12, 19).as(elem.field)) 内置函数substring取出后面的时间.
本文章安装方法转载自:https://blog.youkuaiyun.com/weberhuangxingbo/article/details/88741416