windows下 的kettle的安装与配置

本文详细介绍了在Windows 10系统下安装和使用Kettle进行ETL操作的步骤,包括从下载到配置CDH集群的全过程。在安装过程中可能会遇到的错误,如数据库连接、中文乱码、Hadoop配置等问题,文中都提供了相应的解决方案。
部署运行你感兴趣的模型镜像

kettle的安装与使用(windows下)亲测


关于报错请下滑到末尾,有我遇到的错误,及其解决方案

环境
  • windows 10系统
  • cdh集群 (版本号是5.10)
步骤
  1. 下载安装kettle
    • 如何下载
      百度搜索kettle会出现kettle的官网,在官网上面下载就好了!
      地址:kettle 8.2下载地址

      下载可能会有点慢,在这个过程当中,我的任务还失败了一次,然后我选择了使用迅雷进行下载。
        操作:复制下载链接然后打开迅雷新建任务,然后粘贴并且下载,就,速度很快(但是下载得到的文件没有后缀名,照样用好压给解压了)
      如下图所示:
      迅雷下载的样子
      没错,不要怀疑自己,这个就是kettle 8.2
      解压之后的样子:
      解压之后的样子
      打开之后的样子
      在这里插入图片描述
      这样,kettle就在windows下安装完毕了,好的,下班!(才没有)

使用kettle


因为我们是在windows下的环境当中,所以我们在这个文件夹里面找到spoon.bat文件,找到之后打开它:
在这里插入图片描述
然后。。。(屏幕上会出现一个黑窗口,一闪而过的那种,然后啥都没有)我就疯了,这玩意儿打开好像是有点慢,但是问题不大,我有耐心,最后还是打开了。
在这里插入图片描述
打开之后的样子

接下来我们测试一个小例子,我们将mysql数据库中的一个表的内容加载到hdfs上
首先:

  1. 点击新建->转换(出现的效果如下)
    在这里插入图片描述
  2. 点击输入,找到表输入,可以在那个搜索框内直接搜索表输入。

在这里插入图片描述
3. 然后点击表输入按钮,进行表的配置,配置数据库的一些相关信息
点击之后会出现这样的一个图标(在右侧的主界面上)
在这里插入图片描述
4. 双击之后,出现如下的配置配置栏选项
在这里插入图片描述

选项解释
步骤名称写给自己看的名称,想叫什么叫什么
数据库连接就是新建一个数据库的连接配置
SQL就是结构化查询语言(Struct Query Language)自己看着办啦 > _ <
对于SQL语句下面的参数填写嗯,这些我都没用到,所以我不好胡说八道,但是通过名称很好理解
  1. 新建数据库的配置:
    在这里插入图片描述
    上图就是一个简单的数据库的配置,要自己填写的我都用红色的框子圈起来了,这样的话,对照自己的情况,自己修改一下。
    修改完了之后,返回上一步继续配置。
    点击测试的时候,可能汇报一个这样的错误:
    在这里插入图片描述
    这是因为少了一个mysql-connector-java-5.1.41-bin.jar这样的jar包
    下载完毕之后,解压这个文件放到data-integration\lib下面重启kettle然后再试,就不会出现相关的问题了
  2. 配置完毕之后,可以单击预览
    这里会出现一个中文乱码的问题,我们留到后面再讲。

集群配置详细操作:

  • 首先 看看这个地方里面是否显示了自己的cdh的版本
    在这里插入图片描述
    kettle 8.2中默认自带的是CDH5.14,然后我自己的CDH版本是5.10(上文中有提到过,可以在官网里面查看对组件的支持)
    在这里插入图片描述
    对于这个问题的解决方案 ,就是去官网中下载shim包:
    下载地址:shim包下载地址
    在这里插入图片描述
    在红色的框子里面,点进去会出现各个版本号,然后一个一个找一下对应自己CDH的包
    在这里插入图片描述
    这个就是对应我这个CDH的版本shim包,在7.1下面,将它下载了之后并且解压,然后将这个文件夹复制到
    data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations这个路径下面,并且将集群中的hdfs-core.xml,yarn.xml,hdfs-site.xml,mapred-site.xml放入到上述的文件夹里面我的data-integration就是我的kettle的文件名,然后关闭kettle重新启动kettle,

并且修改\data-integration\plugins\pentaho-big-data-plugin\plugin.properties

在这里插入图片描述
我的CDH是5.10 所以要改成cdh510
重复下面的过程
在这里插入图片描述
这个操作,会发现里面出现了CDH 5.10,这个就是自己自己的CDH版本,选中它,然后选择OK
这里我们开始进行对输出源的配置,输出的源配置如下:
找到输出的源:搜索hadoop然后就会在big data文件下面显示出一个hadoop file output
在这里插入图片描述
确认过眼神,就是它了

双击选中,然后再主界面的时候编辑配置
在这里插入图片描述
### 注意,这里的集群配置比较头痛
我第一次配置完了之后只有两个绿色的(√√)勾勾,但是我最后还是全部解决掉了!开心!
配置界面如下
在这里插入图片描述

属性名解释
cluster name自己设置,方便自己记忆
Storage存储类型
HDFS hostnamehdfs的地址(如果是集群的话就不要配置端口号)
username服务器的登录用户名
jobTracker这个设置jobTracker(如果是集群的话就不要配置端口号)
zookeeper hostname这个设置zk的地址(如果是集群的话就不要配置端口号)
oozie写oozie的地址,我上CDH看了下,我这边的端口号不是8080是11000
配置kafka的服务器地址端口号9092(最好自己查看一下CDH)

编辑完毕之后测试一下
在这里插入图片描述
正常的的样子是如上图所示。不正常会出现什么问题呢?文末统一说,遇到问题可以看文末。

接下来就配置完成了,回到下面这个界面
在这里插入图片描述
点击浏览,找一个目录,然后存放数据,选择完毕之后,看下还有没有其他选项需要的,选择完毕之后,点击确定,并且

保存这个文件! 文件->保存

然后生成一个.ktr文件留着备用
开始执行任务:

任务的执行

在这里插入图片描述
我们新建一个作业,提示:下面的操作用双击:
在这里插入图片描述
生成如下结果
在这里插入图片描述
左边的那个东西可以选择配置,也可以选择不配置,不配置的话跑一次就完事儿了。在转换那里点击配置:
在这里插入图片描述
在浏览中找到刚才保存的ktr文件,这样的话,就可以将这个ktr文件执行了,选中了这个ktr文件之后开始执行。等待执行结果就好了,如果执行的过程中有错误的话,可能是在hadoop out file(就是对于输出文件的配置方面有问题)嗯,要去检查一下配置相关

最后就可以在hdfs上面看到加载的文件了。

相关的错误进行解答

1.mysql连接报错:
这是因为少了一个mysql-connector-java-5.1.41-bin.jar这样的jar包,下载地址:
点我下载
2.中文乱码,在spoon.bat的jvm 参数配置后面增加一个“-Dfile.encoding=utf-8”
在这里插入图片描述
3.配置hadoop的时候会出现User home directory access 报错:
尝试一下在hdfs的根目录下的user文件夹下面创建一个自己windows系统用户的文件夹比如最后在hdfs上有一个/user/administrator这个文件夹
4.verify user home permission 这个地方出现问题
解决方案

data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh510

在这个文件夹中找到config.properties文件,打开之后
末尾添加
authentication.superuser.provider=NO_AUTH

最后重启kettle

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值