Kettle的简介与安装
一、简述
1. Kettle简介
kettle是一个开源的ETL(Extract-Transform-Load, 数据抽取、转换、装载)工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。KDE最早源于K Desktop Environment。2006年,Pentaho公司收购Kettle项目,原Kettle项目发起人Matt Casters加入了Pentaho团队,成为Pentaho套件数据集成工程师,从此Kettle成为企业级数据集成及商业智能套件Pentaho的主要组成部分,Kettle重名为Pentaho Data Integration(PDI)。2015年,Hitachi(日立) Data Systems收购了Pentaho公司。
Kettle分为商业版和开源版,由Java语言开发,支持跨平台运行,可以在Windows、Linux上运行,绿色且无需安装,数据抽取高效稳定。如今,在各个企业中,数据处理几乎成为数字化发展的必要过程,而数据处理的过程即数据抽取、统计分析、转换、装载的过程,因此各个企业目前都需要ETL工程师来完成数据处理工作。
2. Kettle架构
- JOB:作业
- 作业又称为步骤流或者控制流
- 在作业中,可以挂载转换任务,也可以挂载job任务
- 作业中的各个组件按照顺序执行,可以对执行的结果进行判断并处理分支
- 作业可以检测数据表、文件是否存在,执行Shell脚本,执行SQL脚本,获取数据、发送邮件等
- Transformation:转换
- 在大部分场景下,可以直接称之为“数据流”
- 完成数据的输入→处理→输出过程
- 一旦启动一个转换任务,则其中的所有组件会同时启动,并根据配置逐条处理数据。
核心组件:
组件 | 描述 |
---|---|
spoon | spoon是kettle的图形化工具,可以通过简单的拖拉拽方式完成kettle任务的设计、运行和调用。 |
pan | Transformation执行器(命令行方式),Pan用于在终端执行Transformation,没有图形界面。 |
Kitchen | Job执行器(命令行方式),Kitchen用于在终端执行Job,没有图形界面。 |
Carte | 嵌入式Web服务,用于远程执行Job或Transformation,Kettle通过Carte建立集群。 |
二、Kettle 9.1安装步骤(附安装包)
- 下载地址参考https://blog.youkuaiyun.com/pengain/article/details/115219257
- 安装要求:jdk1.8
- 获取压缩包后,直接将文件解压至无中文路径中,执行spoon.bat脚本即可完成安装。
Tip:为了使spoon.bat图标更加美观:
1. 创建快捷方式。
2. 右键快捷方式打开属性,点击如图所示更改图标。
3. 选择Kettle解压目录下的spoon.ico图标文件,点击确定。