Pentaho Work with Big Data(四)—— 转换 Hive 里的数据

本文详细介绍了如何使用PDI工具与Hive数据库进行数据的聚合与转换流程,包括创建Hive表、导入原始数据、设置数据库连接、编写SQL作业以及执行作业并检查结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1. 建立 hive 表,导入原始数据

2. 建立一个作业,查询 hive 表,并将聚合数据写入一个 hive 表

(1)打开 PDI,新建一个作业

(2)建立一个 hive 的数据库连接

(3)共享数据库连接(可选)

(4)编辑 SQL 作业项

(5)保存并执行作业

(6)检查 hive 表


1. 建立 hive 表,导入原始数据

        过程参考:Pentaho Work with Big Data(三)—— 向 Hadoop 集群导入数据

2. 建立一个作业,查询 hive 表,并将聚合数据写入一个 hive 表

(1)打开 PDI,新建一个作业

        如图1 所示:

图1

(2)建立一个 hive 的数据库连接

        如图2 所示:

图2

        说明: kettle 连接 hive 的相关配置参考:kettle 5.1.0 连接 Hadoop hive 2 (hive 1.2.1)

(3)共享数据库连接(可选)

(4)编辑 SQL 作业项

        如图3 所示:

图3

(5)保存并执行作业

        日志如图4 所示:

图4

        从图4 可以看到,作业已经成功执行。

(6)检查 hive 表

        结果如图5 所示:

图5

        从图5 可以看到,新建了 weblogs_agg 表,并装载了聚合数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值