Kettle 是一款非常强大和流行的开源软件,它的核心功能是数据集成。简单来说,它就是一个专门用来处理数据的 ETL 工具。
1. 什么是 Kettle?它的新名字是什么?
- Kettle: 这是它最初的名字,也是至今在开发者社区中最广为人知的名字。Kettle 的全称是 “Kettle E.T.T.L. Environment”,这里的 E.T.T.L. 代表了 Extract(抽取)、Transform(转换)、Transform(再次转换)、Load(加载),强调了其核心转换能力。
- PDI: 2006年,Kettle 的主创人员 Matt Casters 加入了 Pentaho 公司,Kettle 也因此成为 Pentaho 商务智能套件的一部分。从此,它的正式名称变成了 Pentaho Data Integration,简称 PDI。
- 现状: 尽管名字变了,但大家出于习惯和亲切感,仍然普遍称其为 Kettle。现在,Pentaho 公司已被 Hitachi Vantara 收购,但软件依然保持开源和商业化双重路线。
所以,Kettle 和 PDI 指的是同一个东西,你可以把它们当作同义词。
2. 核心概念:ETL
要理解 Kettle,必须先理解 ETL。这是数据仓库和数据集成领域的核心流程:
-
E - Extract (抽取): 从各种异构数据源中提取数据。这些数据源可以是:
- 关系型数据库(MySQL, Oracle, SQL Server, PostgreSQL 等)
- 平面文件(Excel

最低0.47元/天 解锁文章
5064

被折叠的 条评论
为什么被折叠?



