kettle是一个ETL(Extract,Transform and Load抽取、转换、载入)工具,ETL工具在数据仓库项目使用非常频繁,kettle也可以应用在以下一些场景:
在不同应用或数据库之间整合数据
把数据库中的数据导出到文本文件
大批量数据装载入数据库
数据清洗
集成应用相关项目是个使用
kettle使用非常简单,通过图形界面设计实现做什么业务,无需写代码去实现,因此,kettle是以面向元数据来设计;
kettle支持很多种输入和输出格式,包括文本文件,数据表,以及商业和免费的数据库引擎。另外,kettle强大的转换功能让您非常方便操纵数据。
Kettle的四大块:
Carte——Carte是一个轻量级的Web容器,用于建立专用、远程的ETL Server。
Kitchen——工作(job)执行器 (命令行方式),一个独立的命令行程序,用于执行由Spoon编辑的作业。
Spoon——转换(transform)设计工具 (GUI方式),通过图形接口,用于编辑作业和转换的桌面应用。
Span——转换(trasform)执行器 (命令行方式),一个独立的命令行程序,用于执行由Spoon编辑的转换和作业。
kettle中有两种脚本文件,transformation和job。
transformation完成针对数据的基础转换,job则完成整个工作流的控制。
转换
转换的两个相关的主要组成部分是step(步骤)和hops(节点连接)。
转换文件的扩展名是.ktr。