Pentaho Work with Big Data（四）—— 转换 Hive 里的数据

原创已于 2025-04-07 11:38:41 修改 · 2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#kettle #hadoop

于 2016-04-13 10:44:50 首次发布

Pentaho Work with Big Data 专栏收录该内容

30 篇文章

订阅专栏

本文详细介绍了如何使用PDI工具与Hive数据库进行数据的聚合与转换流程，包括创建Hive表、导入原始数据、设置数据库连接、编写SQL作业以及执行作业并检查结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

1. 建立 hive 表，导入原始数据

2. 建立一个作业，查询 hive 表，并将聚合数据写入一个 hive 表

（1）打开 PDI，新建一个作业

（2）建立一个 hive 的数据库连接

（3）共享数据库连接（可选）

（4）编辑 SQL 作业项

（5）保存并执行作业

（6）检查 hive 表

1. 建立 hive 表，导入原始数据

过程参考：Pentaho Work with Big Data（三）—— 向 Hadoop 集群导入数据

2. 建立一个作业，查询 hive 表，并将聚合数据写入一个 hive 表

（1）打开 PDI，新建一个作业

如图1 所示：

图1

（2）建立一个 hive 的数据库连接

如图2 所示：

图2

说明： kettle 连接 hive 的相关配置参考：kettle 5.1.0 连接 Hadoop hive 2 (hive 1.2.1)

（3）共享数据库连接（可选）

（4）编辑 SQL 作业项

如图3 所示：

图3

（5）保存并执行作业

日志如图4 所示：

图4

从图4 可以看到，作业已经成功执行。

（6）检查 hive 表

结果如图5 所示：

图5

从图5 可以看到，新建了 weblogs_agg 表，并装载了聚合数据。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。