目录
实验目的
配置 Kettle 向 Spark 集群提交作业。
实验环境
4 台 CentOS release 6.4 虚拟机,IP 地址为:
192.168.56.101
192.168.56.102
192.168.56.103
192.168.56.104
192.168.56.101 是 Spark 集群的主,运行 Master 进程。
192.168.56.102、192.168.56.103 是 Spark 的从,运行 Worker 进程。
192.168.56.104 安装 Pentaho 的 PDI,安装目录为 /home/grid/data-integration。
Hadoop 版本:2.7.2
Spark 版本:1.5.0
PDI 版本:6.0
Spark 集群的安装配置参考:Spark 安装配置实验
配置步骤
1. 在 PDI 主机上安装 Spark 客户端
将 Spark 的安装目录和相关系统环境设置文件拷贝到 PDI 所在主机。在 192.168.56.101 上执行以下命令:
scp -r /home/grid/spark 192.168.56.104:/home/grid/
scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/
下面的配置均在 192.168.56.104 上执行。
2. 编辑相关配置文件
(1)在 /etc/hosts 文件中加如下两行:
192.168.56.101 master
192.168.56.104 kettle
master 和 kettle 为各自主机的 hostname
(2)编辑 spark-env.sh 文件,写如下两行:
export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54
export SPARK_HOME=/home/grid/spark
(3)编辑 spark.sh,写如下三行:
export SPARK_HOME=/home/grid/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54
3. 修改 PDI 的 Spark 例子
cp /home/grid/data-integration/samples/jobs/Spark\ Submit/Spark\ submit.kjb /home/grid/data-integration/test/Spark\ Submit\ Sample.kjb
在 Kettle 中打开 /home/grid/data-integration/test/Spark\ Submit\ Sample.kjb 文件,如图1 所示:
图1
编辑 Spark Submit Sample 作业项,填写如图2 所示的信息:
图2
4. 执行例子
(1)在 HDFS 上准备测试文件 /user/grid/input
hadoop fs -put /home/grid/hadoop-2.7.2/README.txt input
(2)执行 Spark Submit Sample 作业,部分结果如图3 所示:
图3
spark 的 UI 控制台如图4 所示:
图4
参考:
Welcome to the Hitachi Vantara Documentation Portal
http://wiki.pentaho.com/display/EAI/Spark+Submit