Pentaho Work with Big Data（二）—— Kettle 提交 Spark 作业

原创已于 2025-04-07 09:59:08 修改 · 1w 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#kettle #hadoop

于 2016-04-08 16:09:37 首次发布

Pentaho Work with Big Data 专栏收录该内容

30 篇文章

订阅专栏

本文介绍如何在PDI主机上配置Spark客户端，并通过Kettle向Spark集群提交作业的具体步骤。实验使用了4台CentOS 6.4虚拟机搭建Spark集群，详细记录了从环境搭建到成功执行示例作业的全过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

实验目的

实验环境

配置步骤

1. 在 PDI 主机上安装 Spark 客户端

实验目的

配置 Kettle 向 Spark 集群提交作业。

实验环境

4 台 CentOS release 6.4 虚拟机，IP 地址为：
192.168.56.101
192.168.56.102
192.168.56.103
192.168.56.104

192.168.56.101 是 Spark 集群的主，运行 Master 进程。
192.168.56.102、192.168.56.103 是 Spark 的从，运行 Worker 进程。
192.168.56.104 安装 Pentaho 的 PDI，安装目录为 /home/grid/data-integration。

Hadoop 版本：2.7.2
Spark 版本：1.5.0
PDI 版本：6.0

Spark 集群的安装配置参考：Spark 安装配置实验

配置步骤

1. 在 PDI 主机上安装 Spark 客户端

将 Spark 的安装目录和相关系统环境设置文件拷贝到 PDI 所在主机。在 192.168.56.101 上执行以下命令：

scp -r /home/grid/spark 192.168.56.104:/home/grid/
scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/

下面的配置均在 192.168.56.104 上执行。

2. 编辑相关配置文件

（1）在 /etc/hosts 文件中加如下两行：

192.168.56.101 master
192.168.56.104 kettle

master 和 kettle 为各自主机的 hostname

（2）编辑 spark-env.sh 文件，写如下两行：

export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54
export SPARK_HOME=/home/grid/spark

（3）编辑 spark.sh，写如下三行：

export SPARK_HOME=/home/grid/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54

3. 修改 PDI 的 Spark 例子

cp /home/grid/data-integration/samples/jobs/Spark\ Submit/Spark\ submit.kjb /home/grid/data-integration/test/Spark\ Submit\ Sample.kjb

在 Kettle 中打开 /home/grid/data-integration/test/Spark\ Submit\ Sample.kjb 文件，如图1 所示：

图1

编辑 Spark Submit Sample 作业项，填写如图2 所示的信息：

图2

4. 执行例子

（1）在 HDFS 上准备测试文件 /user/grid/input

hadoop fs -put /home/grid/hadoop-2.7.2/README.txt input

（2）执行 Spark Submit Sample 作业，部分结果如图3 所示：

图3

spark 的 UI 控制台如图4 所示：

图4

参考：

Welcome to the Hitachi Vantara Documentation Portal
http://wiki.pentaho.com/display/EAI/Spark+Submit