Greenplum通过JDBC进行连接、Python连接Greenplum、copy装载大量数据

1. Greenplum通过JDBC进行连接

和其它的JDBC类似,只是连接的URL、driver、jar包不一样而已

  • URL:jdbc:pivotal:greenplum://192.168.8.111:5432;DatabaseName=dataqualitysystem
  • driver:com.pivotal.jdbc.GreenplumDriver
  • jar包的下载方式如下:
    1. greenplum的jdbc连接器进行下载,下载如下文件
      greenplum jdbc jar包下载 2. 下载需要join创建账号、sign in进行登录。下载的是一个zip压缩文件
    2. 将zip压缩文件解压,得到最终的PROGRESS_DATADIRECT_JDBC_DRIVER_PIVOTAL_GREENPLUM_6.0.0.000181.jar文件

2. python连接greenplum

  1. 安装
    如果是centos,则需要安装如下依赖:
[root@bigdata001 opt]#
[root@bigdata001 opt]# yum install postgresql-devel
[root@bigdata001 opt]#

然后再安装python包

pip install psycopg2
  1. 示例代码如下:
import psycopg2
import psycopg2.extras

if __name__ == '__main__':

    conn = psycopg2.connect(dbname="dataqualitysystem",
                          user="gpadmin",
                          password="gpadmin123",
                          host="192.168.8.111",
                          port="5432")

    cursor = conn.cursor(cursor_factory=psycopg2.extras.RealDictCursor)
    cursor.execute("select id, name from public.test")
    print(cursor.fetchall())

    cursor.close()
    conn.close()

执行结果如下:

[RealDictRow([('id', 2), ('name', 'er')]), RealDictRow([('id', 3), ('name', 'san')]), RealDictRow([('id', 1), ('name', 'yi')])]

3. 使用copy

采用JDBC insert的方式,效率很低,测试时5W数据执行了差不多15分钟

copy的数据文件必须在greenplum master所在的服务器,因为master用单个进程加载数据,所以数据文件也不能太大。但是执行SQL命令copy的客户端可以在其它服务器上

SQL命令copy示例如下:

copy public.test(id, name) from '/home/gpadmin/test.txt' with (format csv, delimiter '|');

format可以是csv和text

  • csv:默认逗号分隔符
  • text:默认制表符tab分隔符
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值