使用 Hadoop 进行 ETL 操作:PDI 与 Talend Open Studio 实践
1. PDI 准备工作
在使用 PDI(Pentaho Data Integration)进行 ETL 操作前,有些必要的准备工作。若计划通过 PDI 访问 MySQL,需从 http://dev.mysql.com/downloads/connector/j/ 下载 mysql-connector-java-5.1.32-bin.jar 文件,并将其安装到 PDI 目录 data-integration\lib 中。
若使用 CDH5,还需在从 Hadoop 复制到 PDI 插件目录的 yarn-site.xml 副本里添加如下内容,助力 Pentaho 库定位 YARN 服务器:
<!-- added for pentaho pdi -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hc2nn</value>
</property>
2. 启动 PDI
在 Windows 系统中,可借助 Spoon.bat 脚本启动 PDI
超级会员免费看
订阅专栏 解锁全文
40

被折叠的 条评论
为什么被折叠?



