Pentaho Work with Big Data(三)—— 向 Hadoop 集群导入数据

本文指导如何使用PDI导入数据至HDFS和Hive表中,包括下载示例文件、配置Hadoop连接、执行作业及检查数据是否成功导入。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1. 向 HDFS 导入数据

(1)打开 PDI,新建一个作业

(2)编辑 Hadoop Copy Files 作业项

(3)保存并执行作业

(4)检查 Hadoop

2. 向 Hive 导入数据

(1)执行下面的 HSQL 建立一个 hive 表

(2)打开PDI,新建一个作业,

(3)编辑 Hadoop Copy Files 作业项

(4)保存并执行作业

(5)查询 test.weblogs 表


1. 向 HDFS 导入数据

        从下面的地址下载 web 日志示例文件,解压缩后的 weblogs_rebuild.txt 文件放到 /home/grid/data-integration/test 目录下。  http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?version=1&modificationDate=1327069200000
        建立一个作业,把文件放置到 Hadoop 中。

(1)打开 PDI,新建一个作业

        如图1 所示:

图1

(2)编辑 Hadoop Copy Files 作业项

        如图2 所示:

图2

        说明:hadoop_local 是已经建立好的 Hadoop Clusters 连接,建立过程参考:Pentaho Work with Big Data(一)—— Kettle 连接 Hadoop集群

(3)保存并执行作业

        日志如图3 所示:

图3

        从图3 可以看到,作业已经成功执行。

(4)检查 Hadoop

        结果如图4 所示:

图4

        从图4 可以看到,weblogs_rebuild.txt 已经传到了 Hadoop 的 /user/grid/ 目录下。

2. 向 Hive 导入数据

        从下面的地址下载 web 日志示例文件:
http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000
        解压缩后的 weblogs_parse.txt 文件放到 Hadoop 的 /user/grid/ 目录下:

hadoop fs -put weblogs_parse.txt /user/grid/

        建立一个作业,将文件导入到 hive 表中。

(1)执行下面的 HSQL 建立一个 hive 表

        从图5 可以看到,已经在 test 库中建立了 weblogs 表,此时表中没有数据。

create table test.weblogs (
client_ip    string,
full_request_date string,
day    string,
month    string,
month_num int,
year    string,
hour    string,
minute    string,
second    string,
timezone    string,
http_verb    string,
uri    string,
http_status_code    string,
bytes_returned        string,
referrer        string,
user_agent    string)
row format delimited
fields terminated by '\t';
图5

(2)打开PDI,新建一个作业,

        如图1 所示。

(3)编辑 Hadoop Copy Files 作业项

        如图6 所示:

图6

        说明:hadoop_local 是已经建立好的 Hadoop Clusters 连接,建立过程参考:Pentaho Work with Big Data(一)—— Kettle 连接 Hadoop集群

(4)保存并执行作业

        日志如图7 所示:

图7

        从图7 可以看到,作业已经成功执行。

(5)查询 test.weblogs 表

        结果如图8 所示:

图8

        从图8 可以看到,向 test.weblogs 表中导入了 445454 条数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值