一、连接Hadoop集群与MySQL
1、 下载当前集群的Hbase配置文件,首先你的有下载的权限。

2 解压改配置文件至cdh510目录下

3 修改D:\kettle\data-integration\plugins\pentaho-big-data-plugin下plugin.properties配置

4 在Kettle中配置Hadoop集群


在测试连接后会发现User Home Directory Access 和 Root Directory Access 是报错的,这个可能是因为我们是在非集群的一台主机上操作Hadoop数据,会导致没有权限向Hbase内写入数据,没有尝试出一个确切的解决方案,但是不影响读取Hbase数据,所以这里暂时不管它。(有知道解决办法的大佬的话,求指导~~)
5、 连接Mysql数据库

二、Kettle流程
1、 Hbase数据读取



2、 行列变换
由于Hbase不是关系型数据库,所以我们要将其字段进行行列变换,否则导出数据会如下图所示

选中核心对象——转换——列转行

这里推荐一篇博文,它的示例将列转行这个组件解释得很形象:https://www.cnblogs.com/OliverQin/p/5871330.html
然后对流中字段进行改名,改成与转出Mysql表对应的字段,PS:此处字段对应要准确

3、 表输出
将数据输出到目标Mysql表内

4、 运行结果

本文详细介绍如何在Hadoop集群与MySQL间进行数据交换,包括配置Hadoop集群、读取HBase数据、行列变换及输出至MySQL的过程。适用于大数据与传统数据库融合场景。

被折叠的 条评论
为什么被折叠?



