目录
1. 向 HDFS 导入数据
从下面的地址下载 web 日志示例文件,解压缩后的 weblogs_rebuild.txt 文件放到 /home/grid/data-integration/test 目录下。 http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?version=1&modificationDate=1327069200000
建立一个作业,把文件放置到 Hadoop 中。
(1)打开 PDI,新建一个作业
如图1 所示:
图1
(2)编辑 Hadoop Copy Files 作业项
如图2 所示:
图2
说明:hadoop_local 是已经建立好的 Hadoop Clusters 连接,建立过程参考:Pentaho Work with Big Data(一)—— Kettle 连接 Hadoop集群
(3)保存并执行作业
日志如图3 所示:
图3
从图3 可以看到,作业已经成功执行。
(4)检查 Hadoop
结果如图4 所示:
图4
从图4 可以看到,weblogs_rebuild.txt 已经传到了 Hadoop 的 /user/grid/ 目录下。
2. 向 Hive 导入数据
从下面的地址下载 web 日志示例文件:
http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000
解压缩后的 weblogs_parse.txt 文件放到 Hadoop 的 /user/grid/ 目录下:
hadoop fs -put weblogs_parse.txt /user/grid/
建立一个作业,将文件导入到 hive 表中。
(1)执行下面的 HSQL 建立一个 hive 表
从图5 可以看到,已经在 test 库中建立了 weblogs 表,此时表中没有数据。
create table test.weblogs (
client_ip string,
full_request_date string,
day string,
month string,
month_num int,
year string,
hour string,
minute string,
second string,
timezone string,
http_verb string,
uri string,
http_status_code string,
bytes_returned string,
referrer string,
user_agent string)
row format delimited
fields terminated by '\t';
(2)打开PDI,新建一个作业,
(3)编辑 Hadoop Copy Files 作业项
图6
说明:hadoop_local 是已经建立好的 Hadoop Clusters 连接,建立过程参考:Pentaho Work with Big Data(一)—— Kettle 连接 Hadoop集群
(4)保存并执行作业
日志如图7 所示:
图7
从图7 可以看到,作业已经成功执行。
(5)查询 test.weblogs 表
结果如图8 所示:
图8
从图8 可以看到,向 test.weblogs 表中导入了 445454 条数据。