外部文件服务器为windows 环境的gpload

本文详细介绍了如何在Windows环境下使用Greenplum的gpload工具将CSV文件导入到虚拟机中的Greenplum数据库中。包括相关配置、表的准备工作、编写配置文件gpload4.yaml以及执行导入过程等步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Greenplum的gpload在linux环境下的使用比较简单,但在windows环境下的使用相对要复杂一些。

GP数据库是装在虚拟机中的,使用的windows环境是外面的windows8。

要载入的文件是官方文件中GP-Getting-Started提到的,两个解压后的表格On_Time_On_Time_Performance_2009_12.csv和On_Time_On_Time_Performance_2010_1.csv,每个表格各约为200M,各有94个字段50多万条记录。


1,windows下的相关配置

安装python2.5; --官方指定的版本,版本高了低了都可能 有问题

安装Greenplum loader; --windows版本的loader

所有的gp host 必须能与windows互ping.   --在windows的cmd中看能否与所有的gp host 来ping通。



2,相关表的准备工作

官方在linux环境中,otp200912.gz和otp201001.gz是直接载入的,但在windows环境下不行,因为不能识别gz这一文件格式。 

直接将其解压为On_Time_On_Time_Performance_2009_12.csv和On_Time_On_Time_Performance_2010_1.csv 。

创建准备载入的目标表格faa.faa_otp_load和错误记录表格faa.faa_load_errors

tutorial=# \i ./create_load_tables.sql

CREATE TABLE

CREATE TABLE


3,编写gpload4.yaml(该文件和gpload.py应放在同一文件夹下该配置文件非常容易出错,注意细节)

--- --这几个符号说明文档说是必须的,现在好像也不是必须的

VERSION: 1.0.0.1 --版本号是必须的

DATABASE: tutorial --准备载入的目标数据库

USER: user1 --用户名

HOST: 192.168.172.128--master的IP地址,用mdw不能识别

PORT: 5432 --master的端口号

GPLOAD:

INPUT: ----输入文件信息

    - SOURCE:

         LOCAL_HOSTNAME:

           - 192.168.1.111 --文件服务器的地址,也就是windows8的IP地址

         PORT: 8081 --端口号,这个随意,不冲突就行

         FILE:

           -D:\Greenplum\faa-samples-A01\faa\On_Time_On_Time_Performance_*.csv --要载入的文件的路径,正反斜杠都可以,可以使用通配符。

    - FORMAT: csv --该文件的类型

    - QUOTE: '"' --分隔符,要和文件中的一致,csv就是"

    - ERROR_LIMIT: 50000 --允许的最多错误

    - ERROR_TABLE: faa.faa_load_errors--错误记录表

   OUTPUT:

    - TABLE: faa.faa_otp_load  --要载入的目标表

    - MODE: INSERT --载入方式

   PRELOAD:

    - TRUNCATE: true --先清一下

启动一下greenplum_loaders_path.bat;       --不启动就不能使用gpload.py

通过cmd进入到gpload.py的当前目录,执行gpload.py-f gpload4.yaml

此处为图片

cmd中会出现大量关于逃逸符号的警告信息,不用理会,真正有用的是gpAdminLogs文件夹中log的信息,会提示相关真正的错误,且载入成功后不会提示任何错误。

2015-05-17 20:04:05|INFO|gpload session started 2015-05-17 20:04:05
2015-05-17 20:04:06|INFO|started gpfdist -p 8081 -P 8082 -f "D:\Greenplum\faa-samples-A01\faa\On_Time_On_Time_Performance_*.csv" -t 30
2015-05-17 20:06:00|WARN|26528 bad rows
2015-05-17 20:06:00|INFO|running time: 114.17 seconds
2015-05-17 20:06:00|INFO|rows Inserted          = 1024552
2015-05-17 20:06:00|INFO|rows Updated           = 0
2015-05-17 20:06:00|INFO|data formatting errors = 0
2015-05-17 20:06:00|INFO|gpload succeeded with warnings


--转载请注明出处。










评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值