目录
2. 建立一个作业,查询 hive 表,并将聚合数据写入一个 hive 表
1. 建立 hive 表,导入原始数据
过程参考:Pentaho Work with Big Data(三)—— 向 Hadoop 集群导入数据
2. 建立一个作业,查询 hive 表,并将聚合数据写入一个 hive 表
(1)打开 PDI,新建一个作业
如图1 所示:
图1
(2)建立一个 hive 的数据库连接
如图2 所示:
图2
说明: kettle 连接 hive 的相关配置参考:kettle 5.1.0 连接 Hadoop hive 2 (hive 1.2.1)
(3)共享数据库连接(可选)
(4)编辑 SQL 作业项
如图3 所示:
图3
(5)保存并执行作业
日志如图4 所示:
图4
从图4 可以看到,作业已经成功执行。
(6)检查 hive 表
结果如图5 所示:
图5
从图5 可以看到,新建了 weblogs_agg 表,并装载了聚合数据。