Kettle简介
ETL是数据从数据源经过EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)到到目标数据的整体过程,数仓建设过程中不可或缺的一部分,也是数据量增长的重要体现,随着技术的革新以及数据体量的不断增长ETL的局限性也逐渐体现出来,其中IBM公司提出了新的数据处理流程ELT,这个之后有时间可以分析一下。虽然ETL数据处理流程有一定的弊端,但是对于绝大部分大企业及中小企业来说,在新的数据处理流程没有出来之前ETL仍然是数据处理的绝佳途径。大公司凭借自身的实力搭建自己独有的ETL平台工具,对于中小企业来说开源的Kettle是绝佳的ETL工具。
Kettle又称PDI(Pentaho Data Integration),是一款较早的开源ETL工具,也是中小企业最为常用的ETL开发工具,以Java开发,支持跨平台运行,其特性包括:支持100%无编码、拖拽方式开发ETL数据管道;可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源;支持ETL数据管道加入机器学习算法。
Kettle特色功能:
1、无代码拖拽式构建数据管道:通过组件、连线、配置等方式实现数据管道的构建,完成数据的关联、过滤、计算、统计、挖掘、深度学习、格式转换、输出等操作;
2、多数据源对接:支持几乎所有的关系型数据库、大数据集(如HDFS、Hbase、MogoDB等分布式数据库)、部分文件格式、流数据等;
3、数据管道可视化:支持用户在数据管道任何一个步骤对当前数据进行查看,并可以在线以表格和图表(例如:柱状图、饼图等)的输出步骤的数据,支持不落地直