我们来详细讲解一下 Kettle(现称为 PDI)的下载和安装过程。
Kettle 的全称是 Pentaho Data Integration,现在已完全开源并集成到 Hitachi Vantara 的 Pentaho 套件中,但其核心 ETL 工具 PDI 仍然可以独立下载和使用。
整个过程分为三步:下载、安装、启动测试。
第一步:下载
PDI 的官方下载地址在 SourceForge 平台上。
-
访问下载页面:
打开浏览器,访问以下网址:
https://sourceforge.net/projects/pentaho/files/Data%20Integration/ -
选择版本:
- 你会看到一个版本列表(如
9.4.0.0-343,8.3.0.0-428等)。建议选择最新的稳定版(通常是最新的数字最大的版本)。 - 对于新手,不建议选择带有
-EA(Early Access,早期预览)或-RC(Release Candidate,发布候选)的版本,因为它们可能不够稳定。
- 你会看到一个版本列表(如
-
下载文件:
- 进入你选择的版本文件夹。
- 下载名为
pdi-ce-[版本号].zip的文件。- 例如:
pdi-ce-9.4.0.0-343.zip
- 例如:
ce代表 Community Edition(社区版),这是完全免费和开源的。
注意:下载过程在 SourceForge 页面上可能会有广告,注意识别并点击正确的“Download”按钮,避免点到广告。
第二步:安装
PDI 是 绿色软件,无需执行复杂的安装程序,解压即用。
-
找到下载的 ZIP 压缩包。
-
解压缩:
- 将 ZIP 文件解压到你电脑上任意一个没有中文和特殊符号的路径下。
- 强烈建议路径简单,例如:
- Windows:
D:\pdi或C:\Program Files\pdi - Linux/macOS:
/opt/pdi或~/Applications/pdi
- Windows:
- 为什么? 路径中的中文或空格有时会导致软件启动或作业运行出现意想不到的错误。
-
目录结构:
解压后,你会看到一些重要的文件和文件夹:data-integration/: 核心目录。Spoon.bat(Windows) /Spoon.sh(Linux/macOS): 启动图形化界面的主程序脚本。Pan.bat/Pan.sh: 用于通过命令行执行转换。Kitchen.bat/Kitchen.sh: 用于通过命令行执行作业。Carte.bat/Carte.sh: 用于启动内置的 Web 服务器,搭建轻量级集群。
第三步:启动和测试
在 Windows 系统上启动
- 进入你解压的
data-integration目录。 - 双击
Spoon.bat文件。 - 会先弹出一个命令行(终端)窗口,加载一些环境和依赖库,请稍等片刻。
- 之后就会出现 PDI 的图形化操作界面 Spoon。
在 Linux/macOS 系统上启动
- 打开终端(Terminal)。
- 切换到解压目录:
cd /path/to/your/data-integration - 给启动脚本添加执行权限(如果尚未有):
chmod +x Spoon.sh - 执行启动脚本:
./Spoon.sh
首次启动配置(可选但推荐)
- 选择工作区(Workspace):第一次启动会让你选择一个文件夹作为工作区,用于存放你的元数据。使用默认位置或选择一个你喜欢的路径即可。
- 创建资源库(Repository):
- 启动后,可能会弹出“资源库”连接窗口。第一次使用,可以点击 “No Repository” 按钮,先不使用数据库资源库,而是使用文件资源库(即你的转换和作业以文件形式
.ktr和.kjb保存在本地)。 - 对于个人学习和简单项目,文件资源库完全足够。企业级多人协作才会用到数据库资源库。
- 启动后,可能会弹出“资源库”连接窗口。第一次使用,可以点击 “No Repository” 按钮,先不使用数据库资源库,而是使用文件资源库(即你的转换和作业以文件形式
安装成功验证
成功启动后,你可以看到一个如下图的界面:
(通常会有一个欢迎标签页,左侧是“主对象树”和“核心对象”选项卡)
为了确认安装成功,可以尝试创建一个简单的转换:
- 点击菜单栏的
文件 > 新建 > 转换。 - 在左侧 “核心对象” 树中,展开 “输入” 类别。
- 拖动一个 “生成记录” 组件到中间的工作区。
- 再展开 “转换” 类别,拖动一个 “增加常量” 组件到工作区。
- 按住
Shift键,从“生成记录”组件拖一条线到“增加常量”组件,建立连接。 - 点击工具栏的 播放按钮(启动)来运行这个转换。
- 如果下方 “执行结果” 窗口显示 Finished! 并且没有错误,说明你的 Kettle (PDI) 已经安装成功,可以正常工作了!
常见问题
-
无法启动,提示“Java not found”或类似错误:
- 原因:PDI 需要 Java 运行环境 (JRE),通常是 JDK 或 JRE 1.8 或 11。
- 解决:去 Oracle 或 AdoptOpenJDK 官网下载并安装 JDK 8 或 JDK 11。安装后最好配置一下
JAVA_HOME环境变量。
-
启动非常慢或界面卡顿:
- 原因:默认分配的内存可能不足。
- 解决:编辑解压目录下的
data-integration\Spoon.bat(Windows) 或data-integration\Spoon.sh(Linux/macOS) 脚本,找到-Xmx(最大内存)和-Xms(初始内存)参数,根据你电脑的配置适当调大,例如-Xmx2048m(表示最大 2GB 内存)。
-
界面字体很小或模糊(高分辨率屏幕):
- 解决:同样通过修改启动脚本解决。在脚本中找到
PENTAHO_DI_JAVA_OPTIONS设置,添加以下参数来缩放界面:
(--DPPENTAHO_DI_JAVA_OPTIONS="-Dsun.java2d.uiScale=2"2代表 200% 缩放,可根据你的屏幕调整为1.5,2.5等)
- 解决:同样通过修改启动脚本解决。在脚本中找到
希望这个详细的指南能帮助你顺利完成 Kettle (PDI) 的下载和安装!
3159






