Pentaho Work with Big Data（六）—— 使用 Pentaho MapReduce 生成聚合数据集

原创已于 2025-04-07 13:57:53 修改 · 3.6k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#kettle #hadoop

于 2016-04-14 16:22:48 首次发布

Pentaho Work with Big Data 专栏收录该内容

30 篇文章

订阅专栏

本文介绍如何使用Pentaho MapReduce将web日志数据转换为聚合数据集，包括创建Mapper和Reducer转换、配置MapReduce作业及执行验证。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、向 HDFS 导入示例数据文件

二、建立一个用于 Mapper 的转换

1. 新建一个转换

3. 编辑 Split Fields 步骤

4. 编辑 User Defined Java Expression 步骤

5. 编辑 MapReduce Output 步骤

三、建立一个用于 Reducer 的转换

1. 新建一个转换

2. 编辑 MapReduce Input 步骤

3. 编辑 Group by 步骤

4. 编辑 MapReduce Output 步骤

四、建立一个调用 MapReduce 步骤的作业

1. 新建一个作业

2. 编辑 Pentaho MapReduce作业项

本示例说明如何使用 Pentaho MapReduce 把细节数据转换和汇总成一个聚合数据集。当给一个关系型数据仓库或数据集市准备待抽取的数据时，这是一个常见使用场景。我们使用格式化的 web 日志数据作为细节数据，并且建立一个聚合文件，包含按 IP 和年月分组的 PV 数。

关于如何使用 Pentaho MapReduce 把原始 web 日志解析成格式化的记录，参考：Pentaho Work with Big Data（五）—— 格式化原始 web 日志

一、向 HDFS 导入示例数据文件

将 weblogs_parse.txt 文件放到 HDFS 的 /user/grid/parse/ 目录下（因资源有限，本示例只取了这个文件的前 100 行数据）。参考：Pentaho Work with Big Data（三）—— 向 Hadoop 集群导入数据

二、建立一个用于 Mapper 的转换

1. 新建一个转换

如图1 所示：

图1

2. 编辑 MapReduce Input 步骤

如图2 所示：

图2

3. 编辑 Split Fields 步骤

如图3 所示：

图3

说明：“字段”如下所示，所有字段都是String类型。

client_ip
full_request_date
day
month
month_num
year
hour
minute
second
timezone
http_verb
uri
http_status_code
bytes_returned
referrer
user_agent

4. 编辑 User Defined Java Expression 步骤

如图4 所示：

图4

说明：“Java Expression”列填写如下内容：

client_ip + '\t' + year + '\t' + month_num

5. 编辑 MapReduce Output 步骤

如图5 所示：

图5

将转换保存为 aggregate_mapper.ktr。

三、建立一个用于 Reducer 的转换

1. 新建一个转换

如图6 所示：

图6

2. 编辑 MapReduce Input 步骤

如图7 所示：

图7

3. 编辑 Group by 步骤

如图8 所示：

图8

4. 编辑 MapReduce Output 步骤

如图9 所示：

图9

将转换保存为 aggregate_reducer.ktr。

四、建立一个调用 MapReduce 步骤的作业

使用 mapper 和 reducer 转换。

1. 新建一个作业

如图10 所示：

图10

2. 编辑 Pentaho MapReduce作业项

如图11 - 图14 所示：

图11

图12

图13

图14

说明：

需要编辑“Mapper”、“Reducer”、“Job Setup”和“Cluster”四个标签。
hadoop_local 是已经建立好的 Hadoop Clusters 连接，设置如图15 所示。建立过程参考：Pentaho Work with Big Data（一）—— Kettle 连接 Hadoop集群

图15

将作业保存为 aggregate_mr.kjb。

五、执行作业并验证输出

1. 启动 hadoop 集群

# 启动HDFS
$HADOOP_HOME/sbin/start-dfs.sh
# 启动yarn
$HADOOP_HOME/sbin/start-yarn.sh
# 启动historyserver
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver