pentaho & SPARK

原创于 2017-10-24 10:24:49 发布 · 1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

大数据工具专栏收录该内容

8 篇文章

订阅专栏

本文介绍了如何利用Pentaho的Adaptive Execution Layer (AEL)与Spark集成，进行大数据环境下的高效数据处理。通过AEL，数据转换能够在不同系统引擎中执行，并直接在Hadoop集群上的Spark中处理大型数据。AEL的配置和Spark引擎的使用使得开发过程更为便捷，可以在不直接接入Spark集群的情况下在本地完成Spark应用的开发。

一个人难以开发出一个强大且完整的系统，pentaho集成了BI和DI等功能，应用于报表制作和商业智能相对比较全面，最近看了国外文章，这里做一些介绍。

pentaho 使用Adaptive Execution Layer (AEL)在不用系统引擎中执行数据转换，而在大数据环境下，基于hadoop集群下的spark能够进行高效的数据处理。AEL为spark定义数据的转换，直接将操作传递给hadoop集群中，从而利用spark 能在多个节点处理大型数据的能力。AEL的目标是一次开发随处执行。

这里需要注意的是，AEL需要在使用spark引擎前配置好：点击打开链接，配置后在run configuration中选择spark引擎。

AEL-SAPRK app开发

在PDI中开发一个spark应用的好处是不需要在开发过程中接入spark集群，在笔记本上就能完成。

1. main job：

1.1. 设置数据输入输出位置

1.2. 启动转换进程

1.3. Look/Sort Ttransformation

1.3.1. 数据过滤变换排序

1.3.2. 输出结果进行排序

1.3.3. 将排序数据的输出加载到RDBMS中

在Set variables步骤中，为所有的输入输出文件创建变量以用于后面的转换步骤。

在序列中执行2个转换操作：

Transformation A：根据product ID查询product信息并将最终结果根据product name排序
Transformation B：加载错误记录到数据库中

filters record：没有produt ID的记录过滤出去保存在一个单独的文件中
具有productID的记录查询出product info，按照name排序并存储到结果中

错误数据加载到数据库
这一步将不在spark集群中执行

以上的PDI jobs不需要连接到spark集群做开发和测试：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。