前面为大家介绍了SeaTunnel,它可以方便我们快速实现多源数据的集成,还不了解的同学可以关注我后查看文章。
本文则为同学们推荐另外一款开源ETL工具——Kettle。
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。简单说就是我的数据在哪里?我要把我的数据变成什么样?最后再把数据存放到哪里?
Kettle是什么?
Kettle是一款开源的ETL工具,实现数据高效稳定抽取。
相比其它ETL工具依赖纯代码实现,Kettle有一个非常独特的优势是拥有GUI界面,它允许你管理来自不同数据库的数据,通过提供一个图形化的界面来描述你想做什么,而不是你想怎么做。使用Kettle简单到开发者可以像使用任何桌面应用一样使用它,且为纯Java编写,绿色无需安装。
Kettle还有一个很有趣的中文名“水壶”,该项目的主要贡献者MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。说实话,这个解释真的是太形象了。
需要注意的是,Kettle现在已经更名为PDI(Pentaho Data Integration),本文中我们依旧称为Kettle。