Greenplum平台扩展框架(PXF)通过内置连接器提供对外部数据的访问,
这些连接器可以将外部数据源映射到Greenplum数据库表,通过外部表的形式查询外部数据源。
PXF可支持访问的外部数据源有HDFS,Hive和HBase。其中可以对HDFS数据进行读和写操作。
下面介绍PXF访问Hive数据的方法
一)PXF访问Hive数据
PXF Hive连接器支持多种hive的数据格式,包括TextFile,SequenceFile,RCFile,ORC,Parquet.
1、首先,创建一个文本文件:
$ vi /tmp/pxf_hive_datafile.txt
2、将以下数据添加到pxf_hive_datafile.txt; 请注意使用逗号,分隔四个字段值:
Prague,Jan,101,4875.33
Rome,Mar,87,1557.39
Bangalore,May,317,8936.99
Beijing,Jul,411,11600.67
San Francisco,Sept,156,6846.34
Paris,Nov,159,7134.56
San Francisco,Jan,113,5397.89
Prague,Dec,333,9894.77
Bangalore,Jul,271,8320.55
Beijing,Dec,100,4248.41
3、在default数据库中创建一个命名为sales_info的Hive表(这里的hive表是textfile格式):
hive> CREATE TABLE sales_info (location string, month string,
number_of_orders int, total_sales double)
这些连接器可以将外部数据源映射到Greenplum数据库表,通过外部表的形式查询外部数据源。
PXF可支持访问的外部数据源有HDFS,Hive和HBase。其中可以对HDFS数据进行读和写操作。
下面介绍PXF访问Hive数据的方法
一)PXF访问Hive数据
PXF Hive连接器支持多种hive的数据格式,包括TextFile,SequenceFile,RCFile,ORC,Parquet.
1、首先,创建一个文本文件:
$ vi /tmp/pxf_hive_datafile.txt
2、将以下数据添加到pxf_hive_datafile.txt; 请注意使用逗号,分隔四个字段值:
Prague,Jan,101,4875.33
Rome,Mar,87,1557.39
Bangalore,May,317,8936.99
Beijing,Jul,411,11600.67
San Francisco,Sept,156,6846.34
Paris,Nov,159,7134.56
San Francisco,Jan,113,5397.89
Prague,Dec,333,9894.77
Bangalore,Jul,271,8320.55
Beijing,Dec,100,4248.41
3、在default数据库中创建一个命名为sales_info的Hive表(这里的hive表是textfile格式):
hive> CREATE TABLE sales_info (location string, month string,
number_of_orders int, total_sales double)