
了解更多Greenplum相关内容,欢迎访问Greenplum中文社区网站
本文转自掌数科技
一、与HADOOP HDFS的交互
01 PXF是什么
PXF是 Greenplum平台扩展框架(PXF),通过内置连接器提供对外部数据的访问。
PXF作为Greenplum与hadoop集群数据交互的并行通道框架,在标准功能外,还支持自定义开发与扩展,在Greenplum中通过PXF可以并行加载及并行卸载Hadoop平台数据。
如下图所示:

通过PXF,可以把Greenplum超强的结构化数据超强的存储和计算能力(一般不大于50PB的数据量)与Hadoop的海量半结构化、非结构化数据存储存储和分析能力结合起来,为企业数字化转型战略提供扎实的数据架构基础,其中Greenplum作为企业核心数据仓库(部分企业也通过Greenplum存储和处理半结构化及非结构化数据,如用户访问日志,文档等),Hadoop主要作为海量半结构化数据和非结构化数据的存储及处理平台,以及结构化历史流水数据的检索(Hbase)。
PXF可支持访问的外部数据源有HDFS,Hive和Hbase,我们接下来将分三篇文章描述PXF如何与这三种数据源进行交互。
下面我们将围绕Greenplum与Hadoop hdfs文件系统的数据交互进行,在Greenplum数据库中通过PXF协议读取hdfs中数据和向hdfs文件系统写入计算查询结果数据。
02 Greenplum PXF实战
1. Greenplum读取Hadoop hdfs文件
步骤1:编写文本文件,并增加数据

步骤2:查看数据

步骤3:在greenplum中创建外部表

本文详细介绍了如何使用Greenplum的PXF框架与Hadoop的HDFS、Hive和Hbase进行数据交互。通过PXF,可以实现Greenplum对Hadoop生态中的半结构化和非结构化数据的读取和写入,以增强数据仓库的处理能力。
最低0.47元/天 解锁文章
1000

被折叠的 条评论
为什么被折叠?



